Chaque année des dizaines de milliers de courses à pied sont organisées à travers le monde. Parmi tous ces événements, le marathon est l’épreuve sportive la plus emblématique et populaire. Pour l’année 2016, L’ ARRS (Association of road racing statisticians) évalue à 366 le nombre des principaux marathons dans le monde ce qui a représenté plus de 1,7 millions de participants. Cet engouement populaire ne semble pas vouloir se tarir avec le temps et tous les pays sont concernés par ce phénomène de société. C’est à New-York, il y a plus de 40 ans que cette épreuve ultra élitiste s’est transformée en événement sportif populaire et festif.
Malgré la difficulté de cette épreuve d’endurance de 42,195 km, hommes et femmes, s’alignent par dizaines de milliers sur la même ligne de départ. Ils sont champions internationaux, coureurs occasionnels, ils ont entre 18 ans et pour certains plus de 80 ans et se sont tous entrainés pendant des mois pour relever ce défi sportif.
Mais que sait-on sur ces dizaines de milliers de coureurs. En dehors de la liste brute des résultats, la participation et les résultats des meilleurs, peu de statistiques sont publiées.
Il y a pourtant des données brutes concernant ces coureurs qui sont consultables sur les sites internet des marathons. Les organisateurs mettent en effet à disposition les résultats de tous les coureurs et il est parfois possible avec plus ou moins de bonheur de récupérer toute ou partie de l’ensemble de ces données. Certains internautes ou chercheurs qui ont pu extraire ces jeux de données les mettent aussi à disposition.
Mon intention est de présenter des analyses statistiques et des visualisations originales pour mettre en évidence les informations que recèlent ces jeux de données. Qui sont ces marathoniens et d’où viennent-ils? Observe t on les mêmes performances d’un marathon à l’autre ? Est-ce qu’il y a des marathons plus rapides que d’autres ? Est-ce que les performances ont évoluées d’année en année ? Quels sont les marathons les plus internationaux ? et qu’est-ce que ces données peuvent nous raconter sur l’histoire de ces marathons ? Bref beaucoup de questions que se posent les marathoniens.
Que nous disent les données brutes ?
Intéressons-nous à trois célèbres marathons : New-York le plus emblématique, Berlin qui a son actif plusieurs records du monde et Boston qui est le plus ancien avec 120 éditions à son actif.
Berlin 2014 (cliquer pour agrandir)
Boston 2014 (cliquer pour agrandir)
New-York City 2011 (cliquer pour agrandir)
En présentant les données brutes sous forme de nuage de points, nos yeux perçoivent des formes qu’ils traitent pour nous délivrer des informations que les analyses statistiques ont quelques fois du mal à mettre en évidence. En un coup d’œil, vous matérialisez ce que représentent plus de 30 0000 coureurs, quelle est la répartition entre hommes et femmes, vous visualisez la répartition des performances le record de l’épreuve, le temps du dernier et l’amplitude des âges. Sur le graphique du marathon de Berlin, nos yeux sont attirés par les concentrations de points sur les axes des 3 h, 3h30 et 4h qui mettent en évidence tous les coureurs qui ont atteint leur objectif de passer sous ces temps de référence et le caractère compétitif de ce marathon. Nos yeux s’attardent ensuite sur les points dans les extrêmes comme par exemple les performances stupéfiantes de certains coureurs âgés, ils localisent très facilement le point central du nuage qui se situe autour de 45ans et 4h :00 … Sur le graphique du marathon de Boston, la tache rose mets en évidence la forte participation féminine. Cette forte présence de femmes contraste par rapport au graphique du marathon de Berlin ou la participation des femmes est à peine visible. Le graphique du marathon de NYC montre lui aussi une concentration de points bien marquée sur la verticale des 4 heures mais aussi une concentration de points sur l’horizontale des 50 ans que l’on ne perçoit pas sur les deux autres graphiques. Ce marathon semble attirer les jeunes quinquagénaires. En séparant les résultats des hommes et des femmes, on perçoit encore mieux cette concentration par âge qui est plus marquée chez les hommes.
Le nuage de points pourrait suffire mais les éléments statistiques ajoutés donnent des repères complémentaires qui enrichissent le graphique en informations sans pour autant nuire à sa lisibilité.
Les valeurs quantitatives d’hommes et de femmes sont présentées sous forme de barres en haut à gauche du graphique.
Deux boites à moustaches sont intégrées au graphique. Elles permettent de représenter le profil quantitatif de la série statistique.
Les boites à moustaches se lisent de la manière suivante :
Les rectangles de la boite à moustaches jaunes visibles sur les graphiques contiennent 50% de l’ensemble des participants : 25% en-dessous de la médiane et 25% au-dessus. La médiane coupe la série statistique en 2 parties. Il y a ainsi autant des coureurs au-dessus qu’en dessous. Les extrémités de l‘axe vertical permet de visualiser les points extrêmes de la série.
Dans le cas du graphique du Marathon de Berlin la médiane est à 44 ans et 50% des coureurs ont entre 36 et 50 ans et pour le marathon de Boston la médiane se situe à 43ans et 50% des coureurs ont entre 34 ans et 51 ans. Des chiffres assez proches même si on constate une concentration plus forte autour de la médiane pour le marathon de Berlin. Le marathon de NYC attire une population plus jeune deux ans avec une médiane à 41 ans et 50% des coureurs entre 33 ans et 48 ans.
La boite à moustaches rouges est orientée dans l’autre axe et donne des informations sur les temps de course. Pour le marathon de Berlin, 50% des participants ont couru entre 3h35 et 4 h34, la médiane se situent à 4 :01 :56. Pour le marathon de Boston, La médiane se situe à 3:52 :25 et la boite englobe donc 50% des coureurs qui ont réalisé un temps entre 3:25 :40 et 4 :33 :18. Dans l’ensemble, les coureurs du marathon de Berlin étaient bien moins rapides et l’écart d’environ 10 minutes est significatif surtout si on considère la forte proportion de femmes du marathon de Boston.
Dans le cas du marathon de NYC, le temps médian de 4 :23 est significativement plus élevé (> 20 minutes) que ceux des marathons de Boston et de Berlin qui sont respectivement de 3 :52 et 4 :02. Cette différence traduit bien le caractère festif de ce marathon.
Comment les performances évoluent avec l’âge ?
On visualise bien sur les graphiques que la masse des points se déplacent sur la droite dans la partie supérieure de la tâche, cela traduit simplement qu’avec l’âge, les performances diminuent. Les courbes blanches permettent de chiffrer cet impact. Elles ont été réalisées en calculant les quartiles et certains centiles (1%, 5%) pour chaque âge des coureurs. On obtient ainsi une série de points à partir desquels il est alors possible de tracer la série de courbes.
Si on considère par exemple la courbe Q25% et un point sur cette courbe, tous les points situés à gauche sur l’axe horizontal correspondent aux 25% des coureurs les plus rapides de cet âge. Ainsi sur le graphique du marathon de Boston, un coureur de 35 ans devrait réaliser moins de 3 :14 pour être dans le groupe des 25% les plus rapides et cette performance correspondrait à 3 :44 pour un coureur de 58 ans. ½ heure de plus pour 23 ans de plus soit 1’15 environ par année. On mesure la même tendance sur le graphique du marathon de Berlin 35ans 3 :26 et 58 ans 3 :55 soit 29’ de plus.
Les courbes montrent qu’il existe un âge pour lequel les performances des coureurs sont meilleures entre 35ans et 40 ans suivant le quartile et centile considéré.
Comment évolue la performance pendant la course ?
Les jeux de données des marathons de Boston et New-York donnent aussi les temps intermédiaires qui permettent d’analyser et de visualiser les différences de performance entre le premier semi-marathon et le second pour chaque coureur. Cette différence de temps est exprimée sous forme d’un ratio en %. Ainsi un coureur qui réalise 2 :00 au premier semi et 3 :00 au second a un ratio de 50%.
Les deux premiers graphiques montrent ce ratio en fonction du temps final réalisé et le suivant en fonction de l’âge. Les points sont colorés suivant la valeur du ratio, plus celui-ci est élevé plus la couleur tend vers le rouge de manière à visualiser les coureurs qui ont soufferts sur la deuxième partie de la course et qui pour certains ont rencontré le fameux mur du marathon. La grande majorité des coureurs ont souffert pour terminer la course.
Boston 2014 (cliquer pour agrandir)
New-York City 2011 (cliquer pour agrandir)
Boston 2014 (cliquer pour agrandir)
Comment évolue la performance avec la température ?
En analysant les résultats des 10 derniers marathons de Berlin en utilisant des boites à moustaches, on constate que la médiane peut fluctuer de manière significative avec plus de 10’ d’écart entre l’édition 2009 (4 :10 :07) et celle de 2013 (3 :59 :05 ).
Un tel écart est statistiquement significatif et il serait intéressant de croiser ces valeurs avec d’autres données comme des données météo par exemple. Le site http://www.infoclimat.fr permet de retrouver ces informations météo pour chaque date de marathon.
En comparant la forme de la courbe des températures mesurées à 13h le jour de la course (qui correspond à l’heure médiane de l’arrivée des coureurs) avec celle du temps médian des performances des coureurs, on constate déjà une corrélation entre performance et ce seul paramètre météo.
Température mesurée à 13h à la date des marathons entre 2007 et 2016
Valeur médiane des performances des coureurs entre 2007 et 2016
Plus la température est élevée, moins les performances sont bonnes. Le 20 septembre 2009 (date de marathon 2009), la température maximum était de 23.5°c alors que celle du 29 septembre 2013 (date du marathon 2013) était de 13°c. 10’ de variation de la performance pour 10°c de variation de température : 1′ / °C
En représentant graphiquement la variation de la médiane des performances en fonction de la température, nous pouvons tracer la droite de régression et calculer le coefficient de corrélation qui est de 0,89. Cette valeur est élevée et confirme la forte corrélation entre température et performance.
Variation de la médiane des performances en fonction de la température
Quelle différence de temps entre les hommes et les femmes ?
En analysant 1,5 million de résultats correspondant à 55 marathons de plus de 10000 coureurs , nous pouvons visualiser les valeurs moyennes de chaque marathon et mettre en perspective les différences de performance entre les hommes et les femmes.
On constate que cet écart est stable et qu’il est en moyenne de 25’ (avec un écart type de 4’). Les femmes passent donc 25’ minutes de plus que les hommes sur le parcours du marathon…
Ce travail d’analyse et de visualisation serait intéressant à poursuivre avec d’autres jeux de données de résultats de marathons et d’autres paramètres tels que le pays d’origine des coureurs, les données météo ou d’autres données. Nous pourrions ainsi voir si de nouvelles grandes tendances apparaissent et s’il est possible d’affiner la signature propre à chaque marathon.
Note: Tous les graphiques ont été codés en python et en JavaScript (avec notamment la librairie d3.js qui permet une grande liberté de création graphique).
Alain Ottenheimer (mars 2017 – complément septembre 2017)
Laisser un commentaire