To Take Nature - La Nature sous toutes ses formes

L'horloge moléculaire et l'évolution : étudier les mutations pour dater les espèces

Une comparaison entre les séquences d’ADN ou protéiques chez des êtres vivants actuels peut indiquer une chronologie des différents évènements évolutifs ayant marqué l’histoire du vivant sur Terre.

L’hypothèse de l’horloge moléculaire suggère que la vitesse d’apparition des changements au sein des macromolécules est approximativement constante sur des temps longs. Cette hypothèse, associée à des calibrations paléontologiques, permet de donner une estimation des âges absolus de divergence des espèces.

Actuellement, trois principales limites entravent la fiabilité des datations moléculaires. Ces dernières sont liées à l’échantillonnage d’un nombre souvent faible d’espèces et de gènes, à l’incorporation de calibrations fossiles isolées et ponctuelles, et surtout à la présence d’hétérogénéité des taux d’évolution entre les taxons (la vitesse d'apparition des changements dans les macromolécules est variable selon les groupes).

Pour remédier à ces diverses limites, une nouvelle méthode dite assouplie appliquée à de grands échantillonnages, aussi bien taxonomiques que génétiques, apporte des solutions et perspectives convaincantes. À titre d’exemple, cette théorie de l’horloge moléculaire assouplie postule que la diversification des Métazoaires bilatériens s’est produite 100 millions d’années (Ma) avant l’explosion cambrienne, soit entre 650 et 760 millions d’années ; et que l’âge de la diversification des Mammifères est de 100 Ma.

La théorie de l’horloge moléculaire : des macromolécules pour remonter le temps

Dans les années 1960, Zuckerland et Pauling ont élaboré une théorie permettant de passer l’épreuve du temps. En effet, ces deux biologistes moléculaires ont remarqué que les changements des macromolécules d’origine biologique, appelées mutations, s’effectuaient de manière relativement constante au cours du temps. De ce constat, l’idée d’utiliser ce phénomène pour transposer le degré de divergence moléculaire entre deux espèces en âge de leur plus récent ancêtre commun fut appliquée. C’est ainsi qu’est née la théorie de l’horloge moléculaire.

La datation moléculaire consiste à associer un arbre phylogénétique établi à partir de séquences d’ADN ou de protéines avec des points de calibration paléontologique. Ce croisement disciplinaire offre l’opportunité d’estimer des âges absolus de divergence entre des organismes.

Figure 1. Le principe de l’horloge moléculaire (illustration : E. Force).

Figure 1. Le principe de l’horloge moléculaire (illustration : E. Force).

Par exemple, à partir d’un gène X et pour un arbre phylogénétique inféré, il est possible de déduire les longueurs des branches en s’intéressant aux changements observés dans les séquences nucléotidiques. Le pourcentage de substitution allant de la racine de l’arbre vers chacune des espèces actuelles est variable et correspond à la somme des longueurs des branches (fig. 1). Cette variation peut s’expliquer par le hasard de l’évolution moléculaire. Ainsi, si ces différences de vitesse ne sont pas statistiquement significatives, alors l’arbre phylogénétique est converti en une phylogénie pour laquelle l’ensemble des taxons terminaux (A à F) sont équidistants du taxon basal de l’arbre. On parle alors d’arbre ultramétrique, correspondant à une horloge moléculaire globale parfaite. La paléontologie apporte une indication sur l’âge de l’ancêtre commun des taxons B et C : ce dernier est âgé de 100 Ma (étoile rouge, fig. 1). Il est ainsi possible d’en déduire que le taux de substitution nucléotidique (noté R) du gène X est égal à 0,1%/Ma. De plus, ayant connaissance du degré de divergence génétique des taxons A à F suite à des comparaisons de leur séquence, l’horloge moléculaire globale appelée RX permet de calculer les âges de tous les nœuds de l’arbre.

De ces potentialités, l’horloge moléculaire a suscité un fort engouement. Son utilisation permet d’estimer les âges d’apparition des espèces au sein de groupes pour lesquels aucune indication paléontologique n’est disponible. Ceci est par exemple très utile pour dater les micro-organismes.

Toutefois, l’existence d’une horloge moléculaire, ou d’un taux de mutations approximativement constant au cours du temps, ne met pas de côté la possibilité d’avoir des variations sur des temps courts autour d’une valeur moyenne. En somme, l’horloge moléculaire fluctue plus de façon aléatoire que le rythme régulier d’un métronome.

L’horloge moléculaire : forces et faiblesses

Depuis l’établissement du concept de l’horloge moléculaire, ce dernier fut largement utilisé. En effet, dès les années 1960, des scientifiques proposent que l’Homme, le Chimpanzé et le Gorille ont divergé il y a environ 5 Ma. Les paléontologues suggéraient plutôt un âge de 30 Ma pour la séparation de la lignée humaine avec celles des grands singes. Toutefois, un consensus a été trouvé : l’estimation apportée par l’horloge moléculaire était plus proche que celle proposée par la paléontologie. La séparation de l’Homme et des Grands singes est actuellement estimée à 7 Ma. L’horloge moléculaire montre d’importantes potentialités, c’est pourquoi ce concept a été largement employé pour dater moultes espèces, même des virus tels que le VIH (l’ancêtre commun le plus récent des principales souches du VIH datent des années 1915-1941, soit bien avant l’émergence de la pandémie actuelle).

Néanmoins cet engouement a été freiné par l’observation d’importants désaccords entre des âges paléontologiques et moléculaires. L’illustre exemple est celui de l’âge des Métazoaires. L’étude du registre fossile montre une soudaine diversification à la base du Cambrien il y a environ 540 Ma. Mais les biologistes moléculaires estiment l’âge de la diversification est entre 582 Ma à 976 Ma. Le fait que les âges moléculaires soient plus anciens que les âges paléontologiques n’est pas si étonnant. En effet, la découverte du plus vieux fossile d’un taxon n’est pas garantie. Aussi, la divergence génétique entre les espèces est toujours antérieure à la divergence morphologique. Mais si d’importants écarts d’âges restent suspects, ces derniers pourraient être corrélés aux limites propres du principe de l’horloge moléculaire.

Figure 2. L’erreur paléontologique et ses conséquences sur la datation des espèces (illustration : E. Force).

Figure 2. L’erreur paléontologique et ses conséquences sur la datation des espèces (illustration : E. Force).

De plus, les fossiles rapportent les références géologiques nécessaires pour accéder à des âges absolus. Si, par erreur d’identification ou de datation de la strate à laquelle le fossile appartient, l’âge de la divergence entre les taxons étudiés est décalé dans le temps, alors le taux de mutation du gène concerné peut être réduit. Par exemple, si la divergence entre les taxons B et C est non plus de 100 Ma mais de 150 Ma, alors le taux de substitution du gène X est égal à 0,067%/Ma. Ceci entraîne un vieillissement de tous les nœuds d’un facteur 1,5 (fig. 2). Pour un bon nombre d’études de datation moléculaire, un seul point de repère paléontologique est souvent considéré. C’est pourquoi des erreurs sur ces point de calibration affectent les âges calculés.

Figure 3. L’horloge moléculaire et l’erreur stochastique (illustration : E. Force).

Figure 3. L’horloge moléculaire et l’erreur stochastique (illustration : E. Force).

Par ailleurs, le choix des gènes semble également avoir un effet conséquent sur les estimations des âges de divergence. Dans le cas d’un deuxième gène Y, les gènes X et Y qui représentent des échantillonnages de sites nucléotidiques à partir de deux loci indépendants du génome, la phylogénie inférée à partir du gène Y montre des longueurs de branches différentes de celle du gène X. Ces dernières sont la conséquence d’une variabilité naturelle : on parle d’erreur stochastique. Par exemple, après avoir pris en compte l’erreur stochastique, les branches amenant aux taxons B et C ont une longueur égale à 8,5% (fig. 3). Sur la phylogénie établie avec l’horloge moléculaire, le taux de mutation est de 0,085%/Ma pour le gène Y. De ce fait, les âges calculés par le gène Y fluctuent localement par rapport au gène X. Aussi, le choix d’utiliser un grand nombre de gènes permet de réduire l’erreur stochastique, cependant ceci est au détriment du nombre d’espèces étudiées et ainsi du nombre de points de calibration.

Figure 4. Le phénomène d’absence d’horloge moléculaire (illustration : E. Force).

Figure 4. Le phénomène d’absence d’horloge moléculaire (illustration : E. Force).

Considérons un dernier gène Z qui ne possède pas un taux de mutation constant, ce qui est le cas le plus fréquent (fig. 4). Il est possible de prouver statistiquement ce constat en appliquant des tests de détection des écarts par rapport à l’hypothèse d’horloge moléculaire. Si un cadre probabiliste est employé, les scientifiques peuvent savoir si l’arbre phylogénétique avec l’horloge moléculaire est significativement moins vraisemblable que l’autre arbre sans horloge. Si ces tests ne sont pas probants, alors la transformation abusive de l’arbre phylogénétique avec horloge moléculaire entraine de conséquentes distorsions dans les longueurs des branches. Par exemple les courtes branches des taxons B et C égales à 6% au sein de l’arbre phylogénétique à horloge moléculaire conduisent à un faible taux de mutation (0,06%/Ma). Ce taux erroné apporte d’importantes incohérences dans les âges calculés pour le gène Z et notamment pour les gènes plus anciens.

Les horloges moléculaires assouplies et les solutions aux limites initiales

Plusieurs problèmes majeurs réduisent considérablement la fiabilité de la datation moléculaire. En effet, la prise en considération d’un nombre limité d’espèces et de gènes, l’incorporation de calibrations fossiles isolées et fixées ou encore l’existence d’hétérogénéités de taux d’évolution entre les taxons, sont des écueils importants impactant les datations moléculaires. À propos de l’échantillonnage taxonomique, la considération d’un plus grand nombre d’espèces apporte une meilleure phylogénie ainsi qu’une estimation plus fiable des longueurs de branches. De ce fait, les taux d’évolution et les temps de divergences sont améliorés. De plus, pour l’échantillonnage génomique, il est important de considérer plusieurs gènes ou protéines pour ne pas fausser les estimations d’âges de divergence dépendant principalement du choix d’un seul locus ainsi que son erreur stochastique associée.

Grâce au progrès des méthodes de séquençage, le problème du nombre limité d’espèces et de gènes devient surmontable. Néanmoins, les autres écueils cités ci-avant demandent à améliorer les techniques pour en limiter leurs effets : le couplage fossiles/molécules a été amélioré par l’établissement de méthodes de datation incorporant plusieurs calibrations paléontologiques en même temps et en considérant ces celles-ci comme des intervalles de temps au lieu de points fixes n’indiquant aucune incertitude. Les fluctuations du taux d’évolution constatées chez de nombreuses espèces ont amené les scientifiques à développer de méthodes de datation moléculaire ne sollicitant pas l’hypothèse d’une horloge moléculaire dite globale, autrement dit appliquée à toute la phylogénie considérée. Ainsi, une méthode dite des horloges moléculaires locales a été élaborée. Cette dernière fait l’hypothèse qu’il pourrait exister des taux d’évolution constants dans une région de l’arbre phylogénétique même si des variations de taux à de plus grandes échelles phylogénétiques sont présentes. Un telle approche s’expose à une difficulté : l’identification objective des ensembles de branches évoluent selon une même horloge moléculaire locale.

Figure 5. Les changements graduels du taux d’évolution le long des branches d’un arbre phylogénétique (illustration : E. Force).

Figure 5. Les changements graduels du taux d’évolution le long des branches d’un arbre phylogénétique (illustration : E. Force).

Pour dépasser cette contrainte, les scientifiques ont mis au point une approche permettant d’assouplir la première hypothèse en modélisant la dynamique des taux d’évolution le long des branches de l’arbre phylogénétique. Un des modèles d’horloge assouplie le plus utilisé se base sur l’observation, cruciale, de l’héritabilité du taux d’évolution. Lors d’une spéciation, le taux d’évolution à un locus pour les deux nouveaux taxons sont identiques. Des taux d’évolution différents peuvent émerger par la suite et se propager indépendamment le long des deux branches descendantes, ayant au départ un ancêtre avec un taux d’évolution intermédiaire. C’est alors que les taxons (ici G et H, fig. 5) sont caractérisés par des taux d’évolution lent pour le premier, et rapide pour le second. De plus, il est important de noter qu’une augmentation de la taille de l’échantillonnage taxonomique favorise une meilleure délimitation des variations du taux d’évolution le long des branches de l’arbre phylogénétique (fig. 5).

Figure 6. Les horloges moléculaires assouplies et l’autocorrélation des taux d’évolution (illustration : E. Force).

Figure 6. Les horloges moléculaires assouplies et l’autocorrélation des taux d’évolution (illustration : E. Force).

La modélisation de ces observations s’effectue en considérant que le taux d’évolution le long d’une branche descendante d’un nœud est autocorrélé à celui de la branche ascendante. En effet, leurs moyennes sont approximativement égales (fig. 6). En détails, connaissant initialement les séquences comparées et les diverses calibrations fossiles, la distribution des âges de divergence ainsi que les taux d’évolution sont estimés de manière à déterminer les valeurs maximisant la probabilité d’obtenir l’arbre phylogénétique avec ces longueurs de branches. De ce fait, un tel modèle d’assouplissement de l’hypothèse de l’horloge moléculaire a été appliqué dans un cadre statistique bayésien.

Les diverses approches d’horloge assouplie permettent d’obtenir des estimations d’âges de divergence couplées à des incertitudes souvent exprimées sous la forme d’intervalles de crédibilité. Ces incertitudes ont été principalement négligées dans les datations moléculaires dites classiques. Pourtant, la connaissance des incertitudes est fondamentale pour quantifier la précision du signal de datation moléculaire retrouvé au sein des données génomiques d’une part, et pour produire une meilleure comparaison avec le registre fossile d’autre part.

L’horloge moléculaire pour dater les Métazoaires et les Mammifères

Une comparaison de plusieurs centaines de gènes et de protéines chez beaucoup d’espèces offre l’opportunité de réduire l’erreur stochastique à l’échelle moléculaire. Les multiples possibilités de calibration permettent également de réduire l’erreur paléontologique. De ce fait, des scientifiques ont essayé de déterminer l’âge de diversification des principaux taxons au sein des Eucaryotes. Pour ce faire, les chercheurs se sont intéressés à la concaténation en une super-protéine de 129 protéines nucléaires composée de 30 399 acides aminés. Cette dernière est impliquée dans la transcription, la traduction, dans le métabolisme cellulaire, et est une composante du cytosquelette. De plus, l’échantillonnage taxonomique comprend 36 groupes eucaryotes dont 15 Métazoaires, 1 Choanoflagellé, 5 Eumycètes, 5 Métaphytes et 10 protistes appartenant aux Alvéolés, Straménopiles et Kinétoplastidés. Les scientifiques se sont assurés de la représentativité de leur étude en considérant différents grands groupes taxonomiques, notamment au sein des Métazoaires. Concernant les références paléontologiques indispensables à la calibration, celles-ci ont été empruntées aux Métazoaires, Eumycètes et Métaphytes. De plus, elles ont été choisies pour leur répartition au sein de l’arbre phylogénétique. Les chercheurs ont incorporé l’incertitude paléontologique en prenant en compte les bornes temporelles récentes et anciennes des couches stratigraphiques au sein desquelles sont retrouvés les fossiles de référence. Toutefois, des variations du taux d’évolution sont constatées dans les données : les Trypanosomes ainsi que les Nématodes évoluent 2 à 3 fois plus rapidement que les Mammifères par exemple. De ce fait, l’utilisation de l’horloge moléculaire globale n’est pas pertinente. Pour remédier à ce problème, les scientifiques ont employé une approche bayésienne d’assouplissement de l’horloge moléculaire.

Figure 7. La datation moléculaire des Eucaryotes (illustration : E. Force, d’après Douzery et al., 2004).

Figure 7. La datation moléculaire des Eucaryotes (illustration : E. Force, d’après Douzery et al., 2004).

En considérant les intervalles de crédibilité associés aux estimations d’âges de divergence, 95% des Eucaryotes semblent s’être diversifiés entre 950 et 1259 Ma. Les Métazoaires se seraient séparés de leur groupe frère, les Choanoflagellés, il y a 761-957 Ma, et la diversification des Métazoaires serait datée entre 642 et 761 Ma (fig. 7). Une telle estimation laisse penser que les Bilatériens se seraient diversifiés il y a environ 100 Ma avant l’explosion cambrienne d’où provient le registre fossile. Le décalage temporel ainsi constaté peut s’expliquer par un manque de connaissances paléontologiques notamment causé par le fait que les premiers organismes bilatériens étaient très probablement des animaux au corps mou, non propice à une fossilisation. De plus, des fossiles datés de 600 Ma ont été classés dans le groupe des Bilatériens. De nos jours, les datations moléculaires et les âges paléontologiques des Métazoaires semblent s’accorder grâce notamment aux progrès simultanés des horloges moléculaires et des archives fossiles.

Figure 8. La datation moléculaire des Mammifères placentaires (illustration : E. Force, d’après Springer M.S. et al., 2003).

Figure 8. La datation moléculaire des Mammifères placentaires (illustration : E. Force, d’après Springer M.S. et al., 2003).

Quant aux Mammifères placentaires, l’âge de leur diversification est un autre exemple de décalage entre les estimations moléculaires et paléontologiques. En première approximation, la diversification des Placentaires s’est déroulé lors des extinctions à la fin de l’ère secondaire, il a y 65 Ma. Toutefois, selon les biologistes moléculaires, les âges de divergence des principaux taxons des Mammifères placentaires ne sont pas concordant avec les datations paléontologiques. En effet, en considérant 42 Mammifères placentaires, les scientifiques ont analysé en parallèles 16 kb d’ADN mitochondrial et nucléaire ainsi que 9 paramètres paléontologiques. À l’issue de ces études, une diversification des Mammifères placentaires se serait déroulée il y a 100 Ma environ (fig. 8).

 

Pour conclure, une étroite collaboration entre les biologistes moléculaires et les paléontologues est cruciale pour dater le plus précisément possible les espèces. L’étude des fossiles apporte une calibration pour les horloges moléculaires, qu’elles soient globales, locales ou assouplies. Les âges moléculaires en découlant offre la possibilité de vérifier les hypothèses biologiques et paléontologiques et amènent à des validations ou des corrections de la chronologie de l’évolution des êtres vivants. Néanmoins, il subsiste encore des désaccords entre les estimations basées sur les génomes et sur les fossiles. Il est alors fondamental de faire des analyses critiques des données moléculaires et paléontologiques.

De nos jours, grâce à la génomique comparative, des progrès ont été apportés notamment après une augmentation des jeux de données moléculaires. En paléontologie, des avancées ont été conduites dans les domaines de l’exploration de gisements et dans l’amélioration des techniques d’analyse des fossiles avec entre autres des méthodes dites tridimensionnelles. Ces diverses études à la croisée de plusieurs disciplines biologiques et géologiques amènent à mieux appréhender les mécanismes évolutifs.

 

Bibliographie

Aris-Brosou S. & Yang Z.. Effects of models of rate evolution on estimation of divergence dates with special reference to the metazoan 18S ribosomal RNA phylogeny. Syst Biol, 2002. n° 51, pp. 703-714.

Bromham L., Penny D. et al.. The power of relative rates tests depends on the data. J Mol Evol, 2000. n° 50, pp. 296-301.

Bromham L., Phillips MJ. & Penny D.. Growing up with dinosaurs: molecular dates and the mammalian radiation. Trends Ecol Evol, 1999. n° 14, pp. 113-118.

Conway Morris S.. The Cambrian “explosion”: slow-fuse or megatonnage? Proc Natl Acad Sci, 2000. n° 97, pp. 4426-4429.

Douzery EJP., Delsuc F. et al.. Local molecular clocks in three nuclear genes: divergence times for rodents and other mammals, and incompatibility among fossil calibrations. J Mol Evol, 2003. n° 57, pp. 201-213.

Douzery EJP., Snell EA. et al.. The timing of eukaryotic evolution: Does a relaxed molecular clock reconcile proteins and fossils? Proc Natl Acad Sci, 2004. n° 101, pp. 15386-15391.

Kishino H., Thorne JL. & Bruno WJ.. Performance of a divergence time estimation method under a probabilistic model of rate evolution. Mol Biol Evol, 2001. n° 18, pp. 352-361.

Korber B., Muldoon M. et al.. Timing the ancestor of the HIV-1 pandemic strains. Science, 2000. n° 288, pp. 1789-1796.

Peterson KJ., Lyons JB. et al.. Estimating metazoan divergence times with a molecular clock. Proc Natl Acad Sci, 2004. n° 101, pp. 6536-6541.

Sarich VM. & Wilson AC.. Immunological time scale for hominoid evolution. Science, 1967. n° 158, pp. 1200-1203.

Springer MS., Murphy WJ. et al.. Placental mammal diversification and the Cretaceous-Tertiary boundary. Proc Natl Acad Sci, 2003. n° 100, pp. 1056-1061.

Welch JJ. & Bromham L.. Molecular dating when rates vary. Trends Ecol Evol, 2005, n° 20, pp. 320-327.

Zuckerkandl E. & Pauling L. Evolutionary divergence and convergence in proteins. In Evolving genes and proteins. New York: Academic Press, 1965. pp. 97-166.

Partager cet article

Repost0
Pour être informé des derniers articles, inscrivez vous :