Télomère
MaisonMaison > Blog > Télomère

Télomère

Jun 26, 2023

Nature Genetics volume 55, pages 1390-1399 (2023)Citer cet article

6669 Accès

58 Altmétrique

Détails des métriques

Les pangénomes donnent accès à une représentation précise de la diversité génétique des espèces, tant en termes de polymorphismes de séquence que de variantes structurelles (SV). Ici, nous avons généré le panel d'assemblage de référence de Saccharomyces cerevisiae (ScRAP) comprenant des génomes de qualité de référence pour 142 souches représentant la diversité phylogénétique et écologique de l'espèce. Le ScRAP comprend des assemblages d'haplotypes par étapes pour plusieurs isolats hétérozygotes diploïdes et polyploïdes. Nous avons identifié environ (environ) 4 800 SV non redondantes qui offrent une vue d’ensemble de la diversité génomique, y compris la dynamique de la longueur des télomères et des éléments transposables. Nous avons découvert des cas fréquents d'aneuploïdies complexes dans lesquels de gros chromosomes subissaient d'importantes délétions et translocations. Nous avons constaté que les SV peuvent avoir un impact sur l'expression des gènes à proximité des points d'arrêt et contribuer de manière substantielle à l'évolution du répertoire génétique. Nous avons également découvert que les régions acquises horizontalement s'insèrent aux extrémités des chromosomes et peuvent générer de nouveaux télomères. Dans l’ensemble, le ScRAP démontre l’avantage d’un pangénome pour comprendre l’évolution du génome à l’échelle de la population.

Le séquençage à lecture longue d’une seule molécule donne accès à des assemblages génomiques sans interruption, y compris des régions chromosomiques répétitives qui restent généralement non assemblées avec les technologies précédentes. L’augmentation rapide de la contiguïté du génome humain1, notamment grâce aux lectures ultra-longues de la technologie Oxford Nanopore (ONT)2, en est le meilleur exemple. Récemment, le consortium télomère à télomère (T2T) a publié le premier assemblage complet « T2T » de deux chromosomes humains3,4,5, suivi de la publication du premier génome humain sans interruption, comprenant de nouvelles séquences de près de 200 Mo6. Les génomes végétaux complexes et les organismes modèles classiques ont également vu des améliorations dans la contiguïté des assemblages, grâce aux technologies à lecture longue7,8,9,10,11.

Ces progrès ont permis à quelques espèces d'avoir plusieurs génomes contigus de type référence, qui incluent des organismes modèles et des espèces d'importance anthropocentrique telles que Escherichia coli12, Drosophila melanogaster10,13, Solanum lycopersicum14, Glycine max15, Oryza sativa8,16, Bombyx mori17 et les humains18,19. ,20. La levure de boulanger, Saccharomyces cerevisiae, possède au total 68 assemblages génomiques à lecture longue de souches non références21,22,23,24,25,26,27,28,29,30. Ces données ont été utilisées pour quantifier les améliorations de contiguïté par rapport aux données à lecture courte25, créer des cartes d'éléments transposables (ET) à l'échelle du génome22,24,25, caractériser les régions subtélomériques29, mettre en phase les haplotypes et détecter de grandes variantes structurelles (SV)22,25, 26,29,30. Cependant, la contiguïté des assemblages génomiques disponibles varie considérablement chez S. cerevisiae et seul un petit sous-ensemble d'entre eux a atteint la contiguïté au niveau des chromosomes. De plus, l'échantillonnage reste limité, de nombreux clades ne disposant pas d'un génome de référence représentatif et aucun génome polyploïde n'a été inclus malgré leur abondance (11,5% des isolats)31. Enfin, la mise en place progressive des haplotypes des génomes diploïdes et polyploïdes est un défi, empêchant l'inférence d'haplotypes et les mesures d'hétérozygotie.

Ici, nous avons généré le panel d'assemblages de référence de S. cerevisiae (ScRAP) comprenant des assemblages du génome T2T pour 142 isolats qui échantillonnent l'espace génomique de l'espèce. La qualité de ces génomes dépasse l’étalon-or de référence et nous permet de caractériser avec précision les SV et les régions complexes à une échelle qui n’a pas encore été atteinte chez d’autres espèces.

Le ScRAP comprend 142 souches qui couvrent la répartition géographique et écologique de l'espèce ainsi que ses niveaux de ploïdie et d'hétérozygotie (Fig. 1a, b et Tableau supplémentaire 1). Le panel comprend 197 assemblages de génomes nucléaires et 136 assemblages de génomes mitochondriaux, dont 100 génomes nouvellement séquencés, parmi lesquels des assemblages résolus par haplotype sont disponibles pour les génomes diploïdes et polyploïdes (Tableau 1 et Tableaux supplémentaires 1 à 3). Les mesures génomiques révèlent des niveaux élevés de contiguïté et d'exhaustivité dans tous les assemblages (note complémentaire 1). Le ScRAP fournit des génomes de qualité de référence pour tous les principaux clades phylogénétiques 31,32 (Fig. 1c et Note complémentaire 2). Les assemblages diploïdes résolus par haplotype T2T montrent que les haplotypes frères (HP; haplotype 1 (HP1) et haplotype 2 (HP2)) sont toujours regroupés dans l'arbre et partagent le même profil de mélange (Fig. 1c, d). La différence la plus frappante a été observée entre les deux HP de la souche Wine/European MC9 (AIS) pour lesquelles la longueur de branche de HP2 (AIS_HP2) est disproportionnellement plus longue par rapport à toutes les autres branches terminales (Fig. 1c), qui est déterminée par le chromosome. -introgressions à grande échelle des chromosomes VI et VII d'une espèce très divergente (voir Introgressions de chromosomes entiers).

50 bp, including deletions, insertions, duplications and contractions of repetitive sequences and copy-neutral rearrangements including inversions (>1 kb) and translocations (>10 kb). They originated from 4,809 nonredundant large-scale rearrangements that are shared at varying frequencies across the 141 nonreference strains (Table 1 and Supplementary Table 5). This nonredundant SV catalog covers ca. 80% of the estimated whole species structural diversity that we predicted to contain approximately 6,000 SVs (Fig. 2b and Table 1)./p>10 kb (Fig. 2f). This distribution shows two clear peaks around 300 bp and 6 kb for deletions, insertions and inversions corresponding to solo-long terminal repeats (LTRs) and full-length Ty elements. The mobility of Ty elements directly accounts for 59% of all insertions (1,571 events) and 16% of deletions through inter-LTR recombination (218 events). This unbalance is explained by the limited number of Ty elements in the reference genome that can be interpreted as a deletion when absent from other genomes. Interestingly, 19% and 8% of all duplications and contractions (representing 74 and seven cases, respectively), also resulted from tandem Ty movements. Altogether 39% of all SVs result from the insertion and deletion of Ty elements./p>50 bp) per genome, which represents an average density of 1 SV every 50 kb. By comparison, each human genome would contain >20,000 SVs46, which corresponds to approximately 1 SV/150 kb, that is, three times lower than in S. cerevisiae. In other eukaryotes that benefit from pangenome data, the SV density scales from 1 SV/90 kb in Drosophila47 (likely underestimated because only >100 bp euchromatic SVs were considered), 1 SV/38 kb in soybean15, 1 SV/17 kb in rice8 and up to 1 SV/4 kb in silkworm17. We also found a clear positive correlation between the numbers of SVs and SNVs/indels accumulating within genomes. It has been proposed that a genomic clock would coordinate the pace of fixation between amino acid substitutions and large-scale rearrangements in bacteria and yeast48,49. However, this clock seems to tick at a different pace depending on the ploidy and zygosity levels of the genome. SVs preferentially accumulate in heterozygous and higher ploidy genomes (Fig. 2c). One possibility would be that SVs are better tolerated in higher ploidy genomes as their deleterious effects (for example, gene deletion and dosage imbalance) are more efficiently buffered. Alternatively, the rate of SV formation might increase with ploidy, as was suggested for aneuploidies37./p>100 kb (that is, a the CR does not cover region/s summing to 100 kb or more) were labeled as complex and the rest as simple/p>100 kb that are present within a strain containing an aneuploidy detected above. Label as complex aneuploidy-related and use in the less conservative estimate of complex aneuploidy count./p>