Séquençage parallèle d'ADN circulaires extrachromosomiques et de transcriptomes dans des cellules cancéreuses uniques

Nouvelles

MaisonMaison / Nouvelles / Séquençage parallèle d'ADN circulaires extrachromosomiques et de transcriptomes dans des cellules cancéreuses uniques

Jun 09, 2023

Séquençage parallèle d'ADN circulaires extrachromosomiques et de transcriptomes dans des cellules cancéreuses uniques

Nature Genetics volume 55,

Nature Genetics volume 55, pages 880–890 (2023)Citer cet article

8707 Accès

159 Altmétrique

Détails des métriques

Les ADN extrachromosomiques (ecDNA) sont courants dans le cancer, mais de nombreuses questions sur leur origine, leur dynamique structurale et leur impact sur l'hétérogénéité intratumorale ne sont toujours pas résolues. Nous décrivons ici l'ADN circulaire extrachromosomique unicellulaire et le séquençage du transcriptome (scEC&T-seq), une méthode de séquençage parallèle d'ADN circulaires et d'ARNm de pleine longueur à partir de cellules individuelles. En appliquant scEC&T-seq aux cellules cancéreuses, nous décrivons les différences intercellulaires dans le contenu de l'ecDNA tout en étudiant leur hétérogénéité structurelle et leur impact transcriptionnel. Les ecDNA contenant des oncogènes étaient présents de manière clonale dans les cellules cancéreuses et entraînaient des différences d'expression intercellulaire des oncogènes. En revanche, d'autres petits ADN circulaires étaient exclusifs aux cellules individuelles, indiquant des différences dans leur sélection et leur propagation. Les différences intercellulaires dans la structure de l'ecDNA indiquent que la recombinaison circulaire est un mécanisme d'évolution de l'ecDNA. Ces résultats démontrent que scEC&T-seq est une approche pour caractériser systématiquement l'ADN circulaire petit et grand dans les cellules cancéreuses, ce qui facilitera l'analyse de ces éléments d'ADN dans le cancer et au-delà.

Mesurer plusieurs paramètres dans les mêmes cellules est essentiel pour comprendre avec précision les systèmes biologiques et leurs changements au cours des maladies1. Dans le cas des ADN circulaires, il est essentiel d'intégrer les informations de séquence d'ADN avec des mesures de sortie transcriptionnelles pour évaluer leur impact fonctionnel sur les cellules. Au moins trois types d'ADN circulaires peuvent être distingués dans les cellules humaines2,3,4,5 : (1) les petits ADN circulaires (<100 kb)6, qui ont été décrits sous différents noms, y compris les eccDNAs6, les microADN4, les ADN circulaires apoptotiques6, les petits ADN circulaires polydispersés7 et les ADN circulaires télomériques ou C-circles8 ; (2) Cercles d'excision des récepteurs des lymphocytes T (TREC)9 ; et (3) grands (> 100 kb), oncogènes, ADN extrachromosomiques circulaires amplifiés en nombre de copies10,11 (appelés ecDNA et visibles sous forme de chromosomes double minute pendant la métaphase12). Malgré notre capacité croissante à caractériser plusieurs caractéristiques dans des cellules individuelles13, une caractérisation approfondie du contenu, de la structure et de la séquence de l'ADN circulaire dans des cellules individuelles reste insaisissable avec les approches actuelles.

Dans le cancer, les amplifications d'oncogènes sur l'ecDNA présentent un intérêt particulier car elles entraînent puissamment l'hétérogénéité du nombre de copies intercellulaires grâce à leur capacité unique à être répliquées et séparées de manière inégale pendant la mitose14,15,16,17,18,19. Cette hétérogénéité permet aux tumeurs de s'adapter et d'échapper aux thérapies2,20,21,22. En effet, les patients atteints de cancers porteurs d'ecDNA ont des résultats cliniques défavorables11. Des recherches récentes indiquent que les ecDNA contenant des activateurs interagissent les uns avec les autres dans les hubs nucléaires17,23 et peuvent influencer les emplacements chromosomiques distants dans le trans23,24. Cela suggère que même les ecDNA ne contenant pas d'oncogènes peuvent être fonctionnels23,24. De plus, nous avons récemment révélé que les tumeurs hébergent un répertoire inattendu d'ADN circulaires plus petits, neutres en nombre de copies et dont la pertinence fonctionnelle est encore inconnue3.

Dans cette étude, nous rapportons l'ADN circulaire extrachromosomique unicellulaire et le séquençage du transcriptome (scEC&T-seq), une méthode qui permet le séquençage parallèle de tous les types d'ADN circulaires, indépendamment de leur taille, de leur contenu et de leur nombre de copies, et de l'ARNm de pleine longueur dans des cellules individuelles. Nous démontrons son utilité pour le profilage de cellules cancéreuses uniques contenant à la fois des ecDNA multifragmentés structurellement complexes et de petits ADN circulaires.

Les approches actuelles de purification de l'ADN circulaire à la pointe de la technologie impliquent trois étapes séquentielles, à savoir l'isolement de l'ADN suivi de l'élimination de l'ADN linéaire par digestion par exonucléase et de l'enrichissement de l'ADN circulaire par amplification en cercle roulant3,6,25. Nous avons estimé que cette approche peut être réduite à des cellules individuelles et, lorsqu'elle est combinée avec Smart-seq2 (réf. 26), peut permettre le séquençage parallèle de l'ADN circulaire et de l'ARNm. Pour comparer notre méthode dans des cellules individuelles, nous avons utilisé des lignées cellulaires de cancer du neuroblastome, que nous avions précédemment caractérisées dans des populations en vrac3. Nous avons utilisé FACS pour séparer les cellules dans des plaques à 96 puits (Fig. 1a, Supplémentaire Fig. 1a, b et Supplémentaire Tableau 1). L'ADN a été séparé de l'ARN polyadénylé, qui a été capturé sur des billes magnétiques couplées à des séquences simple brin d'amorces de désoxythymidine (Oligo dT), de la même manière que les approches précédentes27. L'ADN a été soumis à une digestion par exonucléase, comme cela a été réalisé avec succès dans les populations de cellules en vrac dans le passé, pour enrichir en ADN circulaire3, 6, 25 (Fig. 1b). L'ADN soumis à l'endonucléase PmeI avant la digestion par l'exonucléase a servi de contrôle négatif3. Dans un sous-ensemble de cas, l'ADN n'a pas été digéré comme témoin supplémentaire (Fig. 1b). L'ADN restant après les différents régimes de digestion a été amplifié. L'ADN amplifié a été soumis à un séquençage apparié Illumina et, dans certains cas, à un séquençage Nanopore à lecture longue (Fig. 1a). La composition de la séquence des ADN circulaires a été analysée et l'origine génomique a été déduite dans les régions circularisées à l'aide d'algorithmes de calcul précédemment établis pour l'analyse de l'ADN circulaire3.

a, Schéma de la méthode scEC&T-seq. b, Représentation schématique des conditions expérimentales et des résultats attendus. c, pistes génomiques comparant les densités de lecture sur l'ADNmt (chrM) dans trois exemples de cellules CHP-212 pour chaque condition expérimentale testée. De haut en bas, pas de digestion (violet), digestion exonucléase 1 jour (vert clair), digestion exonucléase 5 jours (vert foncé) et digestion endonucléase avec PmeI avant digestion exonucléase 5 jours (gris). d, la fraction de séquençage lit la cartographie sur l'ADNmt dans chaque condition expérimentale dans les cellules CHP-212 (rouge) et TR14 (bleu). e, La fraction de séquençage lit la cartographie des régions d'ADN circulaires identifiées par scEC&T-seq dans chaque condition expérimentale dans les cellules CHP-212 et TR14. f, la fraction de séquençage lit la cartographie des régions d'ADN circulaires avec l'endonucléase PmeI ciblant la séquence identifiée par scEC&T-seq dans chaque condition expérimentale dans les cellules CHP-212 et TR14. d–f, la taille de l'échantillon est identique dans toutes les conditions : pas de digestion (n = 16 cellules TR14, n = 28 cellules CHP-212) ; Digestion exonucléase 1 jour (n = 37 cellules TR14, n = 31 cellules CHP-212); Digestion exonucléase 5 jours (n = 25 cellules TR14, n = 150 cellules CHP-212); et digestion par endonucléase avec Pmel avant digestion par exonucléase de 5 jours (n = 6 cellules TR14, n = 12 cellules CHP-212). Toutes les analyses statistiques correspondent à un test t de Welch bilatéral. Les valeurs P sont affichées. Dans toutes les boîtes à moustaches, les boîtes représentent les 25e et 75e centiles avec la barre centrale comme valeur médiane et les moustaches représentant la valeur aberrante la plus éloignée ≤ 1,5 × l'intervalle interquartile (IQR) de la boîte.

Données source

Pour évaluer les performances de notre méthode scEC&T-seq, nous avons d'abord évalué la détection et l'enrichissement de l'ADN mitochondrial (ADNmt) car l'ADNmt est présent dans toutes les cellules, est digéré par PmeI et, en raison de sa circularité et de sa nature extrachromosomique, sert de contrôle positif. Un pourcentage significativement plus élevé de lectures cartographiées sur l'ADNmt a été détecté après une exposition plus longue de l'ADN de cellules individuelles à l'exonucléase (P <2, 2 × 10−16, test t de Welch bilatéral; Fig. 1c, d et Supplémentaire Fig. 1c, d). C'était également le cas pour tous les autres éléments d'ADN circulaires (P <2, 2 × 10−16, test t de Welch bilatéral; Fig. 1e), indiquant un enrichissement significatif de l'ADN circulaire. Un enrichissement significatif des régions ecDNA, c'est-à-dire de grands ADN circulaires (> 100 kb) contenant des oncogènes, a été observé après une digestion par exonucléase d'un jour (P = 2, 10 × 10−5, test t de Welch bilatéral; Fig. 1e supplémentaire). Cet enrichissement n'était pas aussi prononcé que celui des ADN circulaires plus petits après une digestion prolongée par une exonucléase de 5 jours, ce qui suggère que l'ecDNA peut être moins stable en présence d'exonucléase par rapport aux ADN circulaires plus petits, ou que les petits ADN circulaires sont amplifiés plus efficacement par la polymérase φ29 (Fig. 1e, f supplémentaires). L'incubation de l'endonucléase PmeI avant la digestion de l'exonucléase de 5 jours a considérablement réduit la cartographie des lectures sur l'ADNmt de 404, 8 fois (P <2, 2 × 10−16, test t de Welch bilatéral; Fig. 1c, d et Supplémentaire Fig. 1c). Un épuisement similaire a été observé pour les lectures cartographiées sur des ADN circulaires contenant des sites de reconnaissance PmeI, confirmant l'enrichissement spécifique de l'ADN circulaire via notre protocole scEC&T-seq (P <2, 2 × 10−16, test t de Welch bilatéral; Fig. 1f et Supplémentaire Fig. 1g, h). Une concordance significative entre la détection d'ADN circulaires basée sur Illumina et Nanopore suggère une détection reproductible indépendante de la technologie de séquençage (corrélation de Pearson bilatérale, R = 0, 95, P <2, 2 × 10 −16; Fig. 2a – d supplémentaires). Ainsi, scEC&T-seq permet l'isolement et le séquençage d'ADN circulaires à partir de cellules individuelles.

L'ARNm séparé des mêmes cellules a été traité à l'aide de Smart-seq2 (réf. 26,27) (Fig. 1a et note complémentaire 1). Nous avons détecté en moyenne 9 058 ± 1 163 (moyenne ± écart-type) transcrits d'ARNm complets de différents gènes par cellule (Fig. 3a – c supplémentaire et tableau supplémentaire 2). Le regroupement non supervisé a séparé les deux populations de lignées cellulaires (Fig. 3d, e supplémentaire). Pour tester si scEC&T-seq a fourni des données de séquençage d'ARNm de haute qualité, nous avons évalué l'expression du gène de signature du cycle cellulaire et classé les cellules individuelles en trois phases du cycle cellulaire (G1, S, G2/M; Fig 3f supplémentaire). Les distributions du cycle cellulaire déduites de scEC & T-seq correspondaient à celles mesurées à l'aide de l'analyse du cycle cellulaire basée sur FACS, confirmant son exactitude (Fig. 3g supplémentaire). Ainsi, scEC&T-seq permet non seulement l'enrichissement et la détection d'ADN circulaires, mais permet également la mesure parallèle d'ARNm transcrit complet de haute qualité dans des cellules cancéreuses uniques.

Seuls les ADN circulaires conférant un avantage de fitness devraient être présents de manière clonale dans une population de cellules cancéreuses22. Nous avons récemment découvert que les tumeurs hébergent en moyenne plus de 1 000 ADN circulaires individuels, dont la plupart sont petits (<100 kb), manquent d'oncogènes et ne contribuent pas à l'amplification des oncogènes3. Leurs différences intercellulaires restent cependant inexplorées et il n'est toujours pas clair si de petits ADN circulaires peuvent conférer un avantage de fitness et se propager par clonage dans les cellules cancéreuses10. Conformément à nos rapports précédents sur les populations en vrac3, le nombre moyen de régions d'ADN circulaires individuelles identifiées à l'aide de scEC&T-seq variait entre 97 et 1 939 (médiane = 702) par cellule unique dans les lignées cellulaires de neuroblastome (Fig. 2a). La distribution circulaire de la taille de l'ADN et l'origine génomique étaient similaires entre les cellules individuelles et reflétaient la distribution observée dans le séquençage en masse3 (minimum = 30 pb, maximum = 1, 2 Mb, médiane = 21 483 kb; Fig. 2a et Supplémentaire Fig. 4a, b). Toutes les cellules analysées étaient vivantes au moment du tri (Fig. 1a, b supplémentaires) et la plupart (> 95%) des ADN circulaires détectés dans des cellules individuelles étaient plus gros que les ADN circulaires apoptotiques, ce qui suggère que la plupart des ADN circulaires ne résultaient pas de l'apoptose, comme suggéré par d'autres rapports6 (Fig. 2a et Fig. 4a supplémentaire). Ainsi, chaque cellule cancéreuse contient un large spectre d'ADN circulaires individuels provenant de différents contextes génomiques.

a, Heatmap affichant le nombre et la longueur des régions d'ADN circulaires individuelles (<100 kb) identifiées par scEC&T-seq dans les cellules individuelles de neuroblastome CHP-212 et TR14 (n = 150 cellules CHP-212, n = 25 cellules TR14 ; taille de bac = 500 bp) avec distribution de densité pour les tailles d'ADN circulaires (en haut) et le nombre total d'ADN circulaires (à droite). b, Carte thermique de la densité d'ADN circulaire à l'échelle du génome dans les cellules individuelles de neuroblastome CHP-212 et TR14 (en haut : n = 150 cellules CHP-212, taille de bac = 3 Mb ; en bas : n = 25 cellules TR14, taille de bac = 3 Mb), et les pistes du génome affichant la densité de lecture à l'échelle du génome à partir de WGS dans les populations de cellules en vrac. La localisation du gène MYCN sur le chromosome 2 est indiquée. c, d, analyse de récurrence dans les cellules CHP-212 (n = 150) (c) et TR14 (n = 25) (d) affichées comme la fraction de cellules contenant un ADN circulaire détecté de chaque type d'ADN circulaire. L'ecDNA a été défini comme des ADN circulaires chevauchant des régions amplifiées en nombre de copies identifiées dans le séquençage en masse (vert) et l'ADNmt ou le chrM (rouge). "Autres" sont définis comme tous les autres petits ADN circulaires (bleu). Les données sont présentées sous forme de moyenne ± sem

Comme prévu, la plupart des petits ADN circulaires n'abritaient pas d'oncogènes10. La proportion globale de petits ADN circulaires détectés de manière récurrente dans les cellules était faible (Fig. 2b – d et Fig. 4c supplémentaire). Cela indique que seul un petit sous-ensemble de petits ADN circulaires est propagé par clonage dans les cellules cancéreuses. Conformément à leur rôle oncogène connu dans le cancer et aux avantages sélectifs positifs, des ecDNA amplifiés contenant des oncogènes ont été détectés de manière récurrente dans les cellules (Fig. 2b – d), ce qui a été validé par FISH (Fig. 2b et Supplémentaire Fig. 5a – c). Même si la pertinence fonctionnelle des petits ADN circulaires ne peut être exclue, la sous-clonalité élevée observée suggère qu'ils ne contribuent pas à la forme physique des cellules cancéreuses dans la même mesure que l'ecDNA amplifiant l'oncogène clonal.

Nous et d'autres avons récemment montré que les ecDNA sont des structures complexes, contenant parfois des fragments réarrangés de différents chromosomes23,28,29,30. Considérant que scEC&T-seq était capable de détecter de manière récurrente des ecDNA de la taille d'une mégabase hébergeant les oncogènes MYCN, CDK4 ou MDM2 (Fig. 2b), nous avons demandé si scEC&T-seq pouvait fournir des informations sur les structures de l'ecDNA. En effet, scEC&T-seq a capturé des ecDNA multifragments dans presque toutes les cellules individuelles récapitulant les structures d'éléments décrites précédemment trouvées dans les populations en vrac23,28 (Fig. 3a,b). Au moins une lecture prenant en charge la variante par point d'arrêt ecDNA était détectable dans environ 30% des cellules individuelles (tableau supplémentaire 3). Une quantification plus poussée des lectures couvrant les jonctions ecDNA et la détection de variantes structurelles computationnelles (SV) à la fois à partir du séquençage à lecture courte et longue ont confirmé l'interdépendance des segments (Fig. 6a – p supplémentaire et tableaux supplémentaires 4 et 5). De tels SV peuvent conduire à l'expression d'un transcrit de fusion sur ecDNA3. En effet, les transcrits de fusion ont pu être identifiés dans des cellules individuelles à l'aide de scEC&T-seq (Fig. 3c et Fig. 7 supplémentaire). Ainsi, scEC&T-seq est suffisamment sensible pour détecter les SV associés à l'ADNc et l'expression du gène de fusion qui en résulte dans des cellules individuelles.

a, b, reconstructions d'ecDNA basées sur des lectures longues et courtes dérivées des données WGS dans des populations de cellules en vrac et de la couverture de lecture sur les fragments d'ecDNA dans des cellules individuelles dans CHP-212 (n = 150) (a) et TR14 (n = 25) cellules (b) telles que détectées par scEC&T-seq. De haut en bas, reconstruction d'amplicon ecDNA, profil de nombre de copies, annotations de gènes, densité de lecture sur la région ecDNA dans des cellules individuelles fusionnées et couverture sur la région ecDNA dans des cellules individuelles (lignes). c, transcrit de fusion exemplaire détecté par scEC&T-seq résultant du réarrangement de segments chromosomiques dans l'ecDNA de CDK4 dans TR14. De haut en bas, couverture de lecture scCircle-seq sur la région du point d'arrêt dans des cellules uniques TR14 fusionnées (à l'échelle logarithmique), annotations de transcription, couverture de lecture scRNA-seq sur les transcriptions fusionnées dans des cellules uniques TR14 fusionnées, représentations de transcription natives et représentation de transcription de fusion. Les segments génomiques interconnectés dans l'ecDNA de CDK4 qui donnent naissance au gène de fusion sont indiqués par une ligne pointillée rouge.

La ségrégation mitotique inégale de l'ecDNA implique que le nombre de copies d'ecDNA peut varier considérablement d'une cellule à l'autre17,22. Dans la plupart des cellules individuelles, les ecDNA multifragments ne différaient pas en structure et en composition (Fig. 3a, b), ce qui suggère que l'ecDNA est structurellement stable dans les lignées cellulaires en culture. Comme prédit par leur ségrégation mitotique binomiale et le fort avantage de fitness conféré2, 17, la plupart des cellules TR14 individuelles contenaient les trois ecDNA hébergeant des oncogènes indépendants également détectés dans les populations en vrac (Fig. 3b et Fig. 4a). Cependant, un petit nombre de cellules ne contenaient qu'un sous-ensemble d'ecDNA indépendants (Fig. 4a – c). Cela suggère que la variation du contenu en ecDNA sert de source d'hétérogénéité de la population. Curieusement, des ecDNA hébergeant MDM2 ont été détectés dans toutes les cellules individuelles, alors que des ecDNA hébergeant CDK4 et MYCN étaient absents dans certaines cellules (Fig. 4b, c), ce qui suggère que des principes biologiques encore indéfinis de ségrégation d'ecDNA peuvent exister. Ensuite, nous avons demandé si l'hétérogénéité du nombre de copies d'ecDNA influençait l'expression des gènes codés sur l'ecDNA. Nous avons confirmé que la distribution du nombre relatif de copies d'ecDNA était cohérente avec les distributions du nombre de copies mesurées à l'aide de FISH (Fig. Supplémentaire 8a – h). La mise en phase des SNP a suggéré que les ecDNA sont d'origine mono-allélique dans chaque cellule cancéreuse (Fig. 9a, b supplémentaire), confirmant l'observation précédente dans les populations de cellules en vrac3. Conformément aux différences liées au nombre de copies dans l'expression des gènes, le nombre relatif de copies d'ecDNA était positivement corrélé au nombre de lectures d'ARNm des gènes contenus sur les ecDNA dans les mêmes cellules individuelles (Fig. 4d – h). Même si les interactions d'amplificateur dans l'ecDNA en cluster peuvent également contribuer à la variabilité de l'expression intercellulaire de l'ecDNA, nous apportons la preuve que l'hétérogénéité du nombre de copies d'ecDNA est un déterminant majeur des différences intercellulaires dans l'expression des oncogènes.

a, Représentation schématique des trois ecDNA indépendants identifiés dans TR14 : MYCN ecDNA (jaune) ; CDK4 ecDNA (bleu); et MDM2 ecDNA (rouge). b, graphique UpSet affichant la cooccurrence des trois ecDNA identifiés dans TR14 (MDM2, CDK4, MYCN) dans des cellules individuelles (n = 25 cellules TR14). c, pistes génomiques avec des densités de lecture (à l'échelle logarithmique) sur des régions d'ecDNA reconstruites dans trois exemples de cellules TR14 montrant différents ecDNA détectés. d, courbes de violon des niveaux d'expression d'ARNm dans des cellules individuelles TR14 et CHP-212 (test t de Welch bilatéral ; P = 0,0038 (MYCN), P < 2,2 × 10−16 (LPIN1, TRIB2, CDK4, MDM2, MYT1L) ); n = 171 cellules CHP-212, n = 42 cellules TR14. e, f, Comparaison par paires entre le nombre de lectures d'ADNc et d'ARNm de scEC&T-seq sur la région ADNc MYCN reconstruite dans des cellules individuelles CHP-212 (corrélation de Pearson bilatérale, P < 2,2 × 10−16, R = 0,86, n = 150 cellules) (e) et dans des cellules individuelles TR14 (corrélation de Pearson bilatérale, P = 0,0056, R = 0 0,54, n = 25 cellules) (f). g, h, Comparaison par paires entre le nombre de lectures d'ecDNA et d'ARNm de scEC&T-seq sur les ecDNA reconstruits de CDK4 (g) et de MDM2 (h) dans des cellules individuelles TR14 (corrélation de Pearson bilatérale, P = 0,0046, R = 0,55 pour CDK4 et P = 0,0019, R = 0,59 pour MDM2, n = 25 cellules TR14).

Données source

Les variants mononucléotidiques (SNV) sont des moteurs importants de l'hétérogénéité intercellulaire et de l'évolution tumorale31. De plus, les SNV peuvent être suivis dans les cellules, permettant leur utilisation pour des applications de traçage de lignée32. Pour tester si scEC&T-seq pouvait être utilisé pour détecter les SNV, nous avons appliqué des algorithmes de détection de SNV sur des données fusionnées de scEC&T-seq unicellulaires et comparé les SNV détectés à ceux identifiés dans les séquences du génome entier de populations en vrac. La plupart des SNV détectés à l'aide de scEC&T ont également été détectés dans des génomes entiers (> 69,5 %). Étant donné que scEC & T-seq détecte également l'ADNmt (Fig. 2c, d), nous avons émis l'hypothèse que les mutations mitochondriales hétéroplasmiques pourraient permettre le traçage de la lignée, comme démontré dans d'autres tests unicellulaires dans le passé32 (Fig. 1c, d et Fig. 1c supplémentaire). En effet, le regroupement hiérarchique non supervisé par des variants d'ADNmt homoplasmiques a génotypé avec précision les cellules (Fig. 10a supplémentaire). Les SNV hétéroplasmiques sur l'ADNmt ont révélé une hétérogénéité intercellulaire élevée et un regroupement hiérarchique non supervisé sur des cellules individuelles individuelles les a regroupées, ce qui indique une sous-clonalité et peut permettre le traçage de la lignée (Fig. 10b supplémentaire et Fig. 11a, b supplémentaires). Ainsi, scEC&T-seq peut détecter des variants hétéroplasmiques dans l'ADNmt et l'ecDNA, permettant un large éventail d'applications et d'analyses basées sur le SNV, y compris l'inférence de lignée.

Alors que l'origine et les conséquences fonctionnelles des grands éléments ecDNA contenant des oncogènes ont été étudiées en détail dans le passé33,34, on ignore en grande partie comment les petits ADN circulaires se forment et comment ils influencent le comportement des cellules. Des travaux récents suggèrent que certains petits éléments circulaires se forment au cours de l'apoptose6. D'autres rapports fournissent des preuves de l'implication de la réparation aberrante des dommages de l'ADN dans leur génération35. Conformément aux rapports précédents36, nous avons identifié la présence de microhomologie aux points de rupture circulaires de petits ADN circulaires, suggérant que la réparation médiée par la microhomologie pourrait être impliquée dans leur génération (Fig. 12 supplémentaire). La distribution de taille bimodale identifiée dans des cellules individuelles (Fig. 2a) suggère qu'au moins deux types de petits ADN circulaires existent dans les cellules. De très petits ADN circulaires (<3 kb) ont été trouvés dans toutes les cellules individuelles analysées (Fig. 2a et Fig. 5a). Aucune différence n'a été observée dans la fraction de très petits ADN circulaires entre les cellules à différentes phases du cycle cellulaire (Fig. 5b), soulevant la question de savoir si ces petits ADN circulaires peuvent être répliqués. Pour identifier les voies associées au contenu élevé de ces très petits ADN circulaires, nous avons comparé l'expression d'ARN de cellules avec une quantité relative élevée de ces petits ADN circulaires à celle de cellules à faible contenu relatif (Fig. 5a). Vingt voies ont été enrichies de manière significative et positive dans les transcriptomes cellulaires avec une très petite teneur en ADN circulaire élevée (Fig. 5c – e et tableau supplémentaire 6). En accord avec des études antérieures, les dommages à l'ADN et les voies de réparation35,37,38, l'apoptose6 et la maintenance des télomères39 étaient significativement enrichis dans les cellules ayant une teneur relative élevée en ce sous-type plus petit d'ADN circulaire (Fig. 5c – e). Cela démontre que scEC&T-seq peut aider à répondre à des questions de longue date sur l'origine et les conséquences fonctionnelles des petits ADN circulaires.

a, Courbe de densité de la teneur relative en petit ADN circulaire (<3 kb) dans les cellules individuelles CHP-212 (n = 129). Pour les analyses d'expression différentielle, les cellules ont été divisées en deux catégories : « faible » (zone orange, bas 40 %) et « élevée » (zone violette, haut 40 %). b, graphique de violon comparant le nombre relatif de petits ADN circulaires (<3 kb) à différentes phases du cycle cellulaire dans des cellules individuelles CHP-212 (rouge, n = 129) et TR14 (bleu, n = 20). Un test t de Welch bilatéral a été utilisé parmi les conditions indiquées. Les valeurs P sont affichées. c, processus cellulaires significativement enrichis en cellules CHP-212 avec une teneur relativement élevée en ADN circulaire très faible. Les valeurs P ajustées et le nombre de gènes sont affichés. d, graphique d'analyse d'enrichissement d'ensemble de gènes (GSEA) des gènes impliqués dans la réparation de l'ADN (P ajusté = 0,0415). e, graphique GSEA des gènes impliqués dans la réponse cellulaire au stimulus des dommages à l'ADN (P ajusté = 0, 0008). Les valeurs P ont été ajustées à l'aide de la méthode Bejamini-Hochberg.

La conformation et l'accessibilité de la chromatine peuvent influencer la sensibilité aux dommages à l'ADN40. Nous avons émis l'hypothèse que les petits ADN circulaires pourraient être le produit de dommages à l'ADN au niveau des sites d'accessibilité ou de conformation différentielle de la chromatine. Pour tester cette hypothèse, nous avons mesuré l'enrichissement relatif de l'immunoprécipitation de la chromatine du facteur de liaison CCCTC (CTCF) suivie d'un séquençage (ChIP-seq) et d'un dosage de la chromatine accessible à la transposase à l'aide de pics de séquençage (ATAC-seq) dans les régions de petits ADN circulaires par rapport à d'autres sites du génome, respectivement. De petits ADN circulaires détectés à l'aide de scEC & T-seq dans des cellules CHP-212 uniques et ceux détectés à l'aide de Circle-seq dans les populations de cellules en vrac ont été utilisés pour cette analyse (Fig. 13a – d supplémentaires). Curieusement, les points de rupture circulaires de l'ADN ont été considérablement enrichis au niveau des sites de liaison du CTCF à la fois dans les cellules individuelles et dans les populations de cellules en vrac. Cet enrichissement était encore plus frappant si l'on considère que les régions d'où provenaient les petits ADN circulaires étaient considérablement appauvries sur les sites de signaux ATAC-seq élevés (Fig. 13e supplémentaire). Cela suggère que les sites de liaison du CTCF et la chromatine non accessible, qui est abondante au niveau des sites de liaison du CTCF41, peuvent être sensibles à la rupture et à la formation d'ADN circulaire. Pour contrôler les signaux ChIP-seq de fond, nous avons mesuré l'enrichissement des pics H3K4me1, H3K27ac et H3K27me3 ChIP-seq sur les sites de formation de petits ADN circulaires. Dans tous les cas, de petits ADN circulaires ont été trouvés à une fréquence significativement plus faible sur ces sites que prévu pour les régions distribuées au hasard (Fig. 13f – h supplémentaire), confirmant la spécificité de l'enrichissement en CTCF et indiquant que les sites marqués par H3K4me1, H3K27ac et H3K27me3 peuvent être protégés de la rupture et de la circularisation. Compte tenu du rôle du CTCF dans la régulation de la structure tridimensionnelle de la chromatine par la médiation de la formation de la boucle de la chromatine41, nos données soulèvent la possibilité que les ruptures d'ADN lors de l'extrusion de la boucle médiée par le CTCF puissent représenter un mécanisme de formation d'un petit ADN circulaire.

Nous avons ensuite appliqué scEC & T-seq à des noyaux uniques de deux neuroblastomes et à des lymphocytes T vivants isolés à partir d'échantillons de sang de deux patients (Fig. 6a, Fig. 14a, b et 15a – t supplémentaires et note complémentaire 1). Le nombre d'éléments d'ADN circulaires individuels identifiés dans les cellules cancéreuses était significativement plus élevé que celui des cellules T normales et des cellules de la lignée cellulaire, ce qui suggère que la circularisation de l'ADN est plus fréquente dans les tumeurs que dans les cellules non transformées ou les cellules en culture (Fig. 6b). Les distributions de taille d'ADN circulaire et le contenu génomique relatif étaient comparables à ceux observés dans les lignées cellulaires, ce qui suggère que scEC&T-seq capture de manière reproductible l'ADN circulaire quel que soit le matériel d'entrée (Fig. 6b et Fig. 4a et 16a supplémentaires). En accord avec nos observations dans les lignées cellulaires, la proportion de petits ADN circulaires identifiés de manière récurrente était faible (Fig. 16b – d supplémentaires). En revanche, de grands ecDNA contenant des oncogènes ont été identifiés de manière récurrente dans les noyaux tumoraux, mais pas dans les cellules T (Fig. 6c et Supplémentaire Fig. 16b – d), en accord avec leur rôle oncogène. Les ecDNA contenant MYCN étaient détectables dans presque tous les noyaux cancéreux des deux patients, ce qui a été confirmé par FISH (Fig. 16e – g supplémentaire). Comme observé dans les lignées cellulaires, les différences intercellulaires dans la transcription de MYCN étaient positivement corrélées à la teneur relative en ecDNA (Fig. 16h, i supplémentaires). Ainsi, scEC&T-seq peut être appliqué avec succès aux tumeurs humaines.

a, diagramme schématique décrivant le traitement des échantillons de tumeur et de sang. b, nombre de régions d'ADN circulaires individuelles normalisées par la taille de la bibliothèque détectée dans les noyaux de la tumeur primaire (n = 93 noyaux du patient n° 1, n = 86 noyaux du patient n° 2), les cellules individuelles de la lignée cellulaire de neuroblastome (n = 25 cellules TR14, n = 150 cellules CHP-212) et les cellules T simples non malignes (n = 38 patient n° 3, n = 41 patient n° 4). Les valeurs P ont été calculées à l'aide d'un test t de Welch bilatéral et sont présentées. Les boîtes dans les boîtes à moustaches représentent les 25e et 75e centiles avec la barre centrale comme valeur médiane et les moustaches représentant la valeur aberrante la plus éloignée ≤ 1,5 × l'IQR de la boîte. c, carte thermique de la densité d'ADN circulaire à l'échelle du génome dans les tumeurs primaires du neuroblastome et les lymphocytes T normaux (n = 93 patient n° 1, vert ; n = 86 patient n° 2, violet ; n = 38 patient n° 3, jaune ; n = 41 patient n° 4, orange ; taille des bacs = 3 Mo). L'emplacement du gène MYCN dans chr2 est indiqué.

Des études récentes sur les génomes du cancer ont décrit des ecDNA structurellement complexes3,11,18,19,28,29,42 ; cependant, en raison de l'analyse des populations de cellules en vrac, leur capacité à déduire l'hétérogénéité structurelle de l'ecDNA était limitée. Les deux neuroblastomes analysés contenaient des ADNc volumineux et structurellement complexes contenant du MYCN, comme confirmé par le séquençage Nanopore à lecture longue des mêmes noyaux uniques et par le séquençage du génome entier (WGS) de populations de cellules en vrac (Fig. 7a et Fig. 17a supplémentaire). Alors que la structure de l'ecDNA chez le patient no. 1 était si complexe qu'il n'a pas été entièrement reconstruit par ordinateur (Fig. 17b supplémentaire), l'ecDNA contenant MYCN chez l'autre patient (patient n° 2) était structurellement composé de cinq fragments génomiques individuels, tous dérivés du chromosome 2, qui étaient reliés par quatre SV (nos. 1–4) d'une manière suffisamment simple pour être reconstruit de manière fiable dans des cellules individuelles (Fig. 7a). Nous avons émis l'hypothèse que l'évaluation de l'hétérogénéité structurelle intercellulaire de l'ecDNA chez ce patient pourrait faciliter l'inférence de la dynamique structurelle de l'ecDNA. En effet, l'ecDNA différait considérablement sur le plan structurel entre un sous-ensemble de cellules individuelles (Fig. 7a, b). SV non. 1 était présent dans toutes les cellules individuelles, ce qui suggère qu'il s'est produit avant les autres SV et peut représenter la variante initiale conduisant à la circularisation (Fig. 7b – d). Nos SV. 2–4, en revanche, n'ont pas été détectés dans un sous-ensemble de cellules. De plus, SV no. 2 et SV n°. 3 indiquait la présence d'une délétion de 6 kb et SV no. 4 ont soutenu la présence d'une délétion plus grande (environ 180 kb) sur l'ecDNA, qui étaient toutes deux présentes dans la plupart mais pas toutes les cellules individuelles (94, 2%; Fig. 7c, d). Analyse des lectures fractionnées aux points de rupture des SV nos. 2 et 3, c'est-à-dire les bords de la délétion de 6 kb et la couverture de cette délétion dans des cellules individuelles, suggèrent la présence de trois populations cellulaires sous-clonales différentes que nous avons appelées sous-clones nos. 1–3. Cloner non. 1 contenait un ecDNA intact dépourvu de délétions. Cloner non. 2 abritait une population mixte d'ecDNA avec et sans délétion (Fig. 7b – e). Dans le clone non. 3, les SV détectés et la couverture de séquençage indiquaient la présence d'une population pure d'ADNc contenant à la fois des délétions et tous les SV (Fig. 7c – e). La séquence la plus simple d'événements mutationnels qui entraînerait l'hétérogénéité structurelle intercellulaire observée de l'ecDNA commence par une simple excision d'un ecDNA contenant MYCN et les régions chromosomiques voisines, c'est-à-dire le SV n ° 1 générant la variante d'ecDNA no. 1 trouvé dans le clone no. 1 (Fig. 7e,f). Ceci est suivi par la fusion de deux ecDNA simples no. 1 variants générant un variant ecDNA réarrangé plus complexe no. 2 qui inclut la petite suppression de 6 kb et les numéros SV. 2 et 3 en plus du SV no. 1 (Fig. 7e,f). Une telle recombinaison circulaire est en accord avec les modèles récents basés sur WGS43. Une grande suppression supplémentaire sur cet ecDNA créerait la variante ecDNA 3 avec tous les SV nos. 1–4 et les deux suppressions (Fig. 7e, f). La prédominance de la variante 3 de l'ecDNA dans ces cellules de neuroblastome suggère qu'elle peut conférer un avantage sélectif positif. Notre démonstration de preuve de principe selon laquelle scEC&T-seq peut aider à déduire la dynamique structurelle de l'ecDNA illustre que scEC&T-seq peut faciliter de futures études portant sur d'importantes questions ouvertes sur l'origine et l'évolution de l'ecDNA.

a, reconstructions d'ecDNA basées sur la lecture longue dérivées de données WGS dans des populations en vrac et couverture de lecture sur les fragments d'ecDNA à travers des noyaux uniques chez le patient no. 2 (n = 86 noyaux) tel que détecté par scEC&T-seq. De haut en bas, reconstruction d'amplicon ecDNA (les SV sur les ecDNA sont colorés ; SV n° 1 à 4), annotation génique, densité de lecture sur la région ecDNA dans les données WGS Nanopore à lecture longue en masse, lecture de la densité sur la région ecDNA dans des noyaux uniques fusionnés et couverture de la région ecDNA dans des noyaux uniques (lignes) détectés par scEC&T-seq à lecture longue ou courte. La suppression de 6 Ko est surlignée en rouge. L'astérisque unique indique la région non cartographiable du génome de référence (hg19). b, carte thermique du nombre total de lectures (à l'échelle logarithmique) dans une fenêtre de 500 bp sur la suppression identifiée de 6 kb sur l'ecDNA à travers des noyaux uniques chez le patient n° 2 (n = 86 noyaux). c, Exemples de pistes génomiques des trois variants de clones identifiés chez le patient no. 2 basé sur l'absence ou la présence de la délétion de 6 kb sur l'élément ecDNA. La densité de lecture totale à l'échelle logarithmique est affichée en bleu et la densité de lecture prenant en charge les bords du cercle est affichée en gris. d, Détection des SV nos. 1 à 4 supportant l'élément ecDNA multifragmenté dans huit exemples de cellules individuelles représentant les trois groupes de variants de clones identifiés (≥1 lecture supportant le SV, gris ; 0 lecture supportant le SV, blanc). e, Représentation schématique des variantes d'ecDNA 1 à 3 détectées en d. f, Interprétation schématique de l'évolution de la structure de l'ecDNA chez le patient no. 2 basé sur les variants ecDNA identifiés dans les données scEC&T-seq. La position de l'oncogène MYCN et de ses éléments amplificateurs locaux (e1 à e5), indiquée par les astérisques simples, dans chaque variante ecDNA est indiquée.

Les éléments régulateurs sont couramment amplifiés sur l'ecDNA, ont un rôle essentiel dans la régulation transcriptionnelle des oncogènes sur l'ecDNA et sont supposés être sous forte sélection positive28,29. En effet, au moins l'un des éléments amplificateurs spécifiques de MYCN récemment décrits28,29 a été détecté de manière récurrente sur des ecDNA hébergeant MYCN dans plus de 82, 7% des cellules individuelles de neuroblastome (Fig. 7f et Supplémentaire Fig. 18a). Fait intéressant, la suppression détectée chez le patient no. 2, c'est-à-dire la variante 3 de l'ecDNA, devrait entraîner la perte de l'une des deux copies du gène MYCN, y compris les éléments régulateurs e2 et e3 présents sur la variante 2 de l'ecDNA (Fig. 7f). Cela soulève la possibilité que le changement de stoechiométrie enhancer:oncogène (6: 1 dans la variante 3 contre 8: 2 dans la variante 2), c'est-à-dire la présence d'une au lieu de deux copies d'oncogène sur un ecDNA, puisse être bénéfique pour l'expression de l'oncogène car il peut permettre une utilisation plus efficace des activateurs sur l'ecDNA. De tels mécanismes peuvent expliquer la prédominance observée de la variante ecDNA no. 3 dans la population de cellules tumorales.

Des rapports récents suggèrent que des ecDNA n'abritant pas d'oncogènes mais contenant des éléments activateurs existent et peuvent améliorer la sortie transcriptionnelle sur des chromosomes linéaires ou sur d'autres ecDNA en trans dans le cadre de hubs ecDNA17,23. Pour identifier ces éléments ecDNA, nous avons analysé les données H3K4me1, H3K27ac, H3K27me3 ChIP-seq et ATAC-seq provenant de cellules de neuroblastome et recherché des ecDNA incluant ces régions mais n'hébergant pas d'oncogènes. Aucun ecDNA ne contenant que des éléments activateurs n'a été identifié de manière récurrente dans des cellules de neuroblastome uniques. Tous les ecDNA détectés de manière récurrente contenaient au moins un oncogène. Cependant, un grand nombre de petits ADN circulaires non récurrents ont été identifiés et ne contenaient que des régions génomiques avec des éléments régulateurs (Fig. 18b supplémentaire). L'absence de récurrence de ces éléments d'ADN circulaires suggère cependant qu'ils ne sont pas maintenus dans ces cellules cancéreuses ou ne confèrent pas d'avantages sélectifs positifs. Ainsi, scEC&T-seq permet la détection d'ADN circulaires non codants et permet de futures investigations sur leur rôle dans la régulation transcriptionnelle du cancer.

Nous avons montré que par séquençage parallèle de l'ADN circulaire et de l'ARNm de cellules cancéreuses uniques, scEC&T-seq non seulement distingue facilement les conséquences transcriptionnelles de l'hétérogénéité du nombre de copies d'oncogènes intercellulaires induite par l'ecDNA, mais a également le potentiel de découvrir les principes de l'évolution structurelle de l'ecDNA. Nous pensons que l'analyse intégrée du contenu et du transcriptome de l'ADN circulaire d'une cellule par scEC&T-seq permettra une compréhension plus complète de l'étendue, de la fonction, de l'hétérogénéité et de l'évolution des ADN circulaires dans le cancer et au-delà.

scEC&T-seq complète les méthodes récemment publiées pour le séquençage de l'ADN unicellulaire et de l'ARN unicellulaire (scRNA-seq)23,27, qui ne permettent pas de distinguer facilement les amplicons circulaires intrachromosomiques linéaires des extrachromosomiques. Même si scEC&T-seq est compatible avec l'automatisation, les procédures élaborées d'enrichissement d'ADN circulaire ne permettent qu'un faible débit, ce qui entraîne des coûts par cellule et représente actuellement une limitation de cette méthode. Cependant, par rapport aux technologies monocellulaires microfluidiques à base de gouttelettes, scEC&T-seq à base de plaques génère un nombre uniforme de lectures par cellule et produit des bibliothèques de séquençage indépendantes disponibles pour la sélection et le reséquençage, ce qui est avantageux lorsqu'une couverture de séquençage élevée est nécessaire. En effet, nous avons montré que scEC&T peut être combiné avec différentes technologies de séquençage. Le niveau de détail fourni par scEC&T-seq dépasse de loin celui des méthodes à haut débit. L'appariement de notre méthode avec d'autres technologies unicellulaires, par exemple, Strand-seq44, et des approches de traitement, par exemple, le traitement monocellulaire tri-canal45, peut augmenter le spectre de variation somatique détecté par scEC&T-seq.

L'exécution de scEC&T-seq dans des cellules cancéreuses uniques nous a permis de profiler leur contenu en ADN circulaire indépendamment du nombre de copies et de la taille de l'ADN circulaire. De petits ADN circulaires ont été identifiés dans des cellules individuelles vivantes, suggérant que l'apoptose n'est pas le seul mécanisme de leur génération. Alors que les ecDNA contenant des oncogènes étaient présents de manière clonale dans des cellules individuelles, les petits ADN circulaires étaient exclusifs aux cellules individuelles. Cela indique non seulement que les petits ADN circulaires ne confèrent probablement pas d'avantage sélectif aux cellules cancéreuses, mais suggèrent également l'existence de conditions préalables encore inconnues pour la sélection, la propagation et le maintien de ces ADN circulaires.

La démonstration robuste de l'intégration du séquençage circulaire de l'ADN et de l'ARNm dans des cellules cancéreuses individuelles indique que la même approche peut être appliquée à une gamme variée de systèmes biologiques pour explorer davantage la diversité et l'invariance de l'ADN circulaire dans des cellules individuelles. Ainsi, nous prévoyons que notre méthode sera une ressource pour la recherche future dans de nombreux domaines au-delà de la biologie du cancer et suggérons qu'elle a le potentiel de répondre à de nombreuses questions biologiques actuellement non résolues concernant l'ADN circulaire.

Un protocole détaillé, étape par étape, de scEC&T-seq est disponible sur le Nature Protocol Exchange46 et est décrit ci-dessous. La durée du protocole est d'environ 8 jours par plaque 96 puits.

Des lignées de cellules tumorales humaines ont été obtenues auprès de l'ATCC (CHP-212) ou ont été fournies par JJ Molenaar (TR14; Princess Máxima Center for Pediatric Oncology). L'identité de toutes les lignées cellulaires a été vérifiée par un génotypage à répétition en tandem court (Genetica DNA Laboratories et IDEXX BioResearch); absence de Mycoplasma spp. la contamination a été déterminée avec un système de détection Lonza MycoAlert. Les lignées cellulaires ont été cultivées dans du milieu Roswell Park Memorial Institute 1640 (Thermo Fisher Scientific) additionné de 1 % de pénicilline, de streptomycine et de 10 % de FCS. Pour évaluer le nombre de cellules viables, les cellules ont été trypsinisées (Gibco), remises en suspension dans du milieu et sédimentées à 500 g pendant 5 min. Les cellules ont ensuite été remises en suspension dans du milieu, mélangées dans un rapport 1: 1 avec 0, 02% de bleu trypan (Thermo Fisher Scientific) et comptées avec un compteur de cellules TC20 (Bio-Rad Laboratories).

Les cellules ont été cultivées jusqu'à 80 % de confluence dans une boîte de 15 cm et arrêtées en métaphase en ajoutant du KaryoMAX Colcemid (10 µl ml-1, Gibco) pendant 1 à 2 h. Les cellules ont été lavées avec du PBS, trypsinisées (Gibco) et centrifugées à 200 g pendant 10 min. Nous avons ajouté 10 ml de KCl 0,075 M préchauffé à 37 ° C, 1 ml à la fois, en vortexant à vitesse maximale entre les deux. Ensuite, les cellules ont été incubées pendant 20 min à 37°C. Ensuite, 5 ml de MeOH: acide acétique 3: 1 glacé (maintenu à -20 ° C) ont été ajoutés, 1 ml à la fois, suivis d'une remise en suspension des cellules en effleurant le tube. L'échantillon a été centrifugé à 200 g pendant 5 min. L'ajout du fixateur suivi de la centrifugation a été répété quatre fois. Deux gouttes de cellules dans 200 pl de MeOH:acide acétique ont été déposées sur des lames préchauffées d'une hauteur de 15 cm. Les lames ont été incubées pendant une nuit.

Les lames ont été fixées dans MeOH: acide acétique pendant 10 min à -20 ° C suivi d'un lavage de la lame dans du PBS pendant 5 min à température ambiante. Les lames ont été incubées dans une solution de pepsine (HCl 0,001 N) avec l'ajout de 10 µl de pepsine (1 g 50 ml-1) à 37 °C pendant 10 min. Les lames ont été lavées dans un tampon salin-citrate de sodium (SSC) 0, 5 × pendant 5 min et déshydratées par lavage dans de l'éthanol froid à 70%, 90% et 100% (stocké à -20 ° C) pendant 3 min. Les lames séchées ont été colorées avec 10 µl de sondes Vysis LSI N-MYC SpectrumGreen/CEP 2 SpectrumOrange (Abbott), ZytoLight SPEC CDK4/CEN 12 Dual Color Probe (ZytoVision) ou ZytoLight SPEC MDM2/CEN 12 Dual Color Probe (ZytoVision), recouvertes d'une lamelle et scellées avec du ciment caoutchouc. La dénaturation s'est produite dans un système ThermoBrite (Abbott) pendant 5 minutes à 72 °C, suivie d'une incubation nocturne à 37 °C. Les lames ont été lavées pendant 5 min à température ambiante dans 2× SSC/0,1 % IGEPAL, puis 3 min à 60 °C dans 0,4× SSC/0,3 % IGEPAL (Sigma-Aldrich) et un lavage supplémentaire dans 2× SSC/0,1 % IGEPAL pendant 3 min à température ambiante. Les lames séchées ont été colorées avec 12 µl de Hoechst 33342 (10 µM, Thermo Fisher Scientific) pendant 10 min et lavées avec du PBS pendant 5 min. Après séchage, une lamelle a été montée sur la lame et scellée avec du vernis à ongles. Les images ont été prises à l'aide d'un microscope confocal Leica SP5 (Leica Microsystems).

Les cellules CHP-212 et TR14 pour l'interphase FISH ont été cultivées dans des lames à 8 chambres (Nunc Lab-Tek, Thermo Scientific Scientific) jusqu'à 80 % de confluence. Les puits ont été fixés dans MeOH: acide acétique pendant 20 min à -20 ° C suivi d'un lavage au PBS pendant 5 min à température ambiante. Les puits ont été retirés et les lames ont été digérées dans une solution de pepsine (HCl 0, 001 N) avec l'ajout de 10 µl de pepsine (1 g 50 ml -1) à 37 ° C pendant 10 min. Après un lavage dans du SSC 0,5 × pendant 5 min, les lames ont été déshydratées par lavage dans de l'éthanol froid à 70 %, 90 % et 100 % stocké à -20 °C (3 min dans chaque solution). Les lames séchées ont été colorées avec 5 µl de sondes Vysis LSI N-MYC SpectrumGreen/CEP 2 SpectrumOrange, ZytoLight SPEC CDK4/CEN 12 Dual Color Probe ou ZytoLight SPEC MDM2/CEN 12 Dual Color Probe, recouvertes d'une lamelle et scellées avec du ciment de caoutchouc. La dénaturation s'est produite dans un système ThermoBrite pendant 5 min à 72 °C suivi de 37 °C pendant la nuit. Les lames ont été lavées pendant 5 min à température ambiante dans 2× SSC/0,1 % IGEPAL, puis 3 min à 60 °C dans 0,4× SSC/0,3 % IGEPAL et 3 min supplémentaires dans 2× SSC/0,1 % IGEPAL à température ambiante. Les lames séchées ont été colorées avec 12 µl de Hoechst 33342 (10 µM) pendant 10 min et lavées avec du PBS pendant 5 min. Après séchage, une lamelle a été montée sur la lame et scellée avec du vernis à ongles. Les images ont été prises avec un microscope confocal Leica SP5. Pour l'estimation du nombre de copies d'ecDNA, nous avons compté les foyers à l'aide de FIJI v.2.1.0 avec la fonction find maxima. Les frontières nucléaires ont été marquées comme régions d'intérêt. Le seuil de détection du signal dans les régions d'intérêt a été déterminé manuellement et utilisé pour toutes les images analysées au sein d'un groupe.

Cette étude comprend des échantillons de tumeurs et de sang de patients diagnostiqués avec un neuroblastome entre 1991 et 2022. Les patients ont été enregistrés et traités selon les protocoles d'essai de la Société allemande d'oncologie et d'hématologie pédiatriques (GPOH). Cette étude a été menée conformément à la Déclaration d'Helsinki de l'Association médicale mondiale (version 2013) et aux bonnes pratiques cliniques ; un consentement éclairé a été obtenu de tous les patients ou de leurs tuteurs. La collecte et l'utilisation d'échantillons de patients ont été approuvées par les comités d'examen institutionnels de la Charité-Universitätsmedizin Berlin et de la faculté de médecine de l'Université de Cologne. Les échantillons et les données cliniques ont été archivés et mis à disposition par la Charité-Universitätsmedizin Berlin ou la National Neuroblastoma Biobank and Neuroblastoma Trial Registry (University Children's Hospital Cologne) du GPOH. Le nombre de copies MYCN a été déterminé à l'aide de FISH. Les échantillons de tumeur présentaient au moins 60 % de contenu en cellules tumorales tel qu'évalué par un pathologiste.

Les échantillons de tissu ont été homogénéisés à l'aide d'un homogénéisateur de tissu Dounce en verre prérefroidi (n° de catalogue 357538, Wheaton) dans 1 ml de tampon EZ PREP glacé (Sigma-Aldrich). Dix coups avec un pilon lâche suivis de cinq coups supplémentaires avec un pilon serré ont été utilisés pour l'homogénéisation des tissus. Pour réduire la chaleur causée par le frottement, le douncer était toujours maintenu sur de la glace pendant l'homogénéisation. L'homogénat a été filtré à travers un tube Falcon (Becton Dickinson) avec un bouchon de filtre cellulaire de 35 µm. Le nombre de noyaux intacts a été estimé par coloration et comptage avec 0,02 % de bleu trypan (Thermo Fisher Scientific) mélangé dans un rapport 1:1.

Les cellules mononucléaires du sang périphérique (PBMC) ont été isolées par centrifugation en gradient de densité avec Ficoll-Plaque PLUS (Cytiva). Les échantillons de sang total ont été remis en suspension 1:1 dans du PBS sans calcium et lentement ajoutés à 12 ml de Ficoll-Plaque PLUS. L'échantillon a été centrifugé à 200g pendant 30 min sans rupture. La couche supérieure de PBMC a été isolée et lavée dans 40 ml de PBS. Les PBMC ont été recueillis par centrifugation à 500 g pendant 5 min et remis en suspension dans du diméthylsulfoxyde à 10 % dans du FCS. Les suspensions de PBMC ont été conservées à -80 °C jusqu'à utilisation.

Pour le tri unicellulaire, 1 à 10 millions de cellules de neuroblastome ou PBMC ont été colorées avec de l'iodure de propidium (PI) (Thermo Fisher Scientific) dans du PBS 1 ×; les cellules viables ont été sélectionnées en fonction des propriétés de diffusion avant et latérale et de la coloration PI. Les suspensions de PBMC ont en outre été colorées avec une dilution au 1/400 de CD3 anti-humain (Ax700, BioLegend). Les suspensions de noyaux ont été colorées au DAPI (concentration finale 2 μM, Thermo Fisher Scientific). Les cellules viables, les noyaux CD3 + PBMCS ou DAPI + ont été triés à l'aide d'un cytomètre en flux à fusion FACSAria (BD Biosciences) dans 2, 5 μl de tampon RLT Plus (QIAGEN) dans des plaques à 96 puits à faible liaison (4titude) scellées avec du papier d'aluminium (4titude) et stocké à -80 ° C jusqu'au traitement.

La séparation physique de l'ADN génomique (ADNg) et de l'ARNm a été effectuée comme décrit précédemment dans le protocole G&T-seq de Macaulay et al.27. Tous les échantillons ont été traités à l'aide d'un poste de travail d'automatisation de laboratoire Biomek FXP (Beckman Coulter). En bref, l'ARNm polyadénylé a été capturé à l'aide d'une amorce Oligo dT modifiée (tableau supplémentaire 7) conjuguée à des billes magnétiques couplées à la streptavidine (Dynabeads MyOne Streptavidin C1, n° de catalogue 65001, Invitrogen). Les billes conjuguées ont été directement ajoutées (10 µl) au lysat cellulaire et incubées pendant 20 min à température ambiante avec mélange à 800 rpm (MixMate, Eppendorf). A l'aide d'un aimant (Alpaqua), l'ARNm capturé a été séparé du surnageant contenant l'ADNg. Le surnageant contenant l'ADNg a été transféré dans une nouvelle plaque 96 puits (4titude) ; les billes capturées par l'ARNm ont été lavées trois fois à température ambiante dans 200 μl de Tris-HCl 50 mM (pH 8,3), KCl 75 mM, MgCl2 3 mM, dithiothréitol 10 mM (DTT), 0,05 % de Tween 20 et 0,2 × inhibiteur de RNase (SUPERase•In, Thermo Fisher Scientific). Pour chaque étape de lavage, les billes ont été mélangées pendant 5 min à 2 000 rpm dans un MixTape (Eppendorf). Le surnageant a été recueilli après chaque lavage et regroupé avec le surnageant d'origine en utilisant les mêmes pointes pour minimiser la perte d'ADN.

L'ARNm capturé sur les billes a été élué dans 10 μl d'un mélange maître de transcription inverse comprenant 10 U μl−1 SuperScript II Reverse Transcriptase (Thermo Fisher Scientific), 1 U μl−1 inhibiteur de RNase, 1× Superscript II First-Strand Buffer (Thermo Fisher Scientific), 2,5 mM DTT (Thermo Fisher Scientific), 1 M bétaïne (Sigma-Aldrich), 6 mM MgCl2 ( Thermo Fisher Scientific), 1 oligo de commutation de modèle μM (tableau supplémentaire 7), mélange de désoxynucléoside triphosphate (1 mM chacun de dATP, dCTP, dGTP et dTTP) (Thermo Fisher Scientific) et eau sans nucléase (Thermo Fisher Scientific) jusqu'au volume final (10 μl). La transcription inverse a été effectuée sur un thermocycleur pendant 60 min à 42 ° C suivi de 10 cycles de 2 min à 50 ° C et 2 min à 42 ° C et se terminant par une incubation de 10 min à 60 ° C. L'amplification de l'ADN complémentaire (ADNc) par PCR a été immédiatement réalisée après la transcription inverse en ajoutant 12 μl de mélange maître PCR comprenant 1 × KAPA HiFi HotStart ReadyMix avec une amorce ISPCR 0, 1 μM (10 mM; Tableau supplémentaire 7) directement aux 10 μl du mélange réactionnel de transcription inverse. La réaction a été effectuée sur un thermocycleur pendant sept cycles comme suit : 98 °C pendant 3 min, puis 18 cycles de 98 °C pendant 15 s, 67 °C pendant 20 s, 72 °C pendant 6 min et enfin 72 °C pendant 5 min. L'ADNc amplifié a été purifié en utilisant un rapport volumétrique de 1: 0, 9 de perles Ampure (Beckman Coulter) et élué dans 20 μl de tampon d'élution (Buffer EB, QIAGEN).

L'ADN isolé a été purifié en utilisant un rapport volumétrique de 1:0,8 de billes Ampure. L'échantillon a été incubé avec les billes pendant 20 min à température ambiante avec un mélange à 800 tr/min (MixMate). L'isolement circulaire de l'ADN a été effectué comme décrit précédemment dans les populations en vrac3,25. En bref, l'ADN a été élué des billes directement dans un mélange maître de digestion par exonucléase (20 unités de Plasmid-Safe ATP-dependent DNase (Epicentre), 1 mM ATP (Epicentre), 1 × Plasmid-Safe Reaction Buffer (Epicentre)) dans une plaque à 96 puits. Dans un sous-ensemble d'échantillons, 1 µl de l'endonucléase MssI/PmeI (20 U µl, New England Biolabs) a été ajouté. La digestion de l'ADN linéaire a été effectuée pendant 1 ou 5 jours à 37 ° C avec 10 U de Plasmid-Safe DNase et 4 μl d'ATP (25 mM), qui ont été ajoutés à nouveau toutes les 24 h pour continuer la digestion enzymatique. Après 1 ou 5 jours de digestion enzymatique, l'exonucléase a été inactivée par la chaleur par incubation à 70°C pendant 30 min. L'ADN résistant aux exonucléases a été purifié et amplifié à l'aide du kit REPLIg Single-Cell (QIAGEN) conformément aux instructions du fabricant. Pour cette étape de purification, 32 µl de tampon polyéthylène glycol (18% (w/v) (Sigma-Aldrich), 25 M NaCl, 10 mM Tris-HCl, pH 8,0, 1 mM EDTA, 0,05% Tween 20) ont été ajoutés, mélangés et incubés 20 min à température ambiante. Après incubation, les billes ont été lavées deux fois avec de l'éthanol à 80 % et l'ADN résistant aux exonucléases a été élué directement dans le mélange réactionnel d'amplification par déplacement multiple avec un kit REPLIg Single-Cell (QIAGEN). L'ADN circulaire amplifié a été purifié en utilisant un rapport volumétrique de 1: 0, 8 de billes Ampure et élué dans 100 μl de tampon d'élution (Buffer EB, QIAGEN).

Un total de 20 ng d'ADNc amplifié ou d'ADN circulaire a été utilisé pour la préparation de la bibliothèque à l'aide du NEBNext Ultra II FS (New England Biolabs) selon le protocole du fabricant. Les échantillons ont été codés à barres à l'aide de paires d'amorces à double index uniques (New England Biolabs) et les bibliothèques ont été regroupées et séquencées sur un instrument HiSeq 4000 (Illumina) ou un instrument NovaSeq 6000 avec 2 lectures appariées de 150 pb pour les bibliothèques d'ADN circulaires et 2 lectures appariées de 75 pb pour les bibliothèques d'ADNc.

Les lectures séquencées des bibliothèques d'ADNg ont été découpées à l'aide de TrimGalore (v.0.6.4)47 et cartographiées sur la version 19 du génome humain (GRCh37/hg19). L'alignement a été effectué avec le Burrows–Wheeler Aligner (BWA)-MEM (v.0.7.17)48. Suite à la recommandation du projet Human Cell Atlas49 (v.2.2.1)50 a été utilisé pour aligner les données RNA-seq obtenues à partir de Smart-seq2 (réf. 26) avec une référence de transcriptome créée à partir de l'annotation hg19 et ENCODE v.19 (réf. 51). Ensuite, les gènes et les isoformes ont été quantifiés à l'aide de rsem (v.1.3.1) 52 avec une seule cellule avant.

Avant le séquençage Nanopore, l'ADN circulaire amplifié de cellules individuelles a été soumis à une digestion par endonucléase T7 pour réduire la ramification de l'ADN. Ensuite, 1,5 µg d'ADN circulaire amplifié ont été incubés à 37 ° C pendant 30 min avec 1,5 µl d'endonucléase I T7 (10 U µl-1, New England Biolabs) dans 3 µl de NEBuffer 2 et de l'eau sans nucléase jusqu'à un volume final de 30 µl. L'ADN digéré par l'endonucléase a été purifié en utilisant un rapport volumétrique de 1:0,7 de billes Ampure et élué dans 25 µl d'eau sans nucléase. Les bibliothèques ont été préparées à l'aide du kit de codage à barres rapide ONT (n° de catalogue SQK-RBK004, Oxford Nanopore Technologies) conformément aux instructions du fabricant, et séquencées sur une Flowcell R9.4.1 MinION (FLO-MIN106, Oxford Nanopore Technologies). Un maximum de quatre échantillons ont été multiplexés par analyse.

Les données scCircle-seq Nanopore ont été appelées en base et démultiplexées à l'aide de Guppy (v.5.0.14 ; exécutant guppy_basecaller avec le modèle dna_r9.4.1_450bps_hac et guppy_barcoder avec FLO-MIN106 et les paramètres par défaut). Les lectures obtenues ont été filtrées par qualité à l'aide de NanoFilt53 (v.2.8.0) (-l 100 - headcrop 50 - tailcrop 50) et alignées à l'aide de ngmlr54 (v.0.2.7) par rapport au génome de référence GRCh37/hg19. Pour appeler les SV, nous avons appliqué Sniffles54 (v.1.0.12) (--min_homo_af 0.7--min_het_af 0.1--min_length 50--min_support 4); pour obtenir la couverture groupée, nous avons utilisé deepTools55 (v.3.5.1) bamCoverage. Toutes ces étapes sont disponibles sous forme de pipeline Snakemake (https://github.com/henssen-lab/nano-wgs).

Circle-seq dans les populations en vrac a été effectué comme décrit précédemment3. Un protocole détaillé étape par étape peut être trouvé sur le serveur Nature Protocol Exchange.

Nous avons généré des données H3K27me3 ChIP-seq pour CHP-212 selon un protocole décrit précédemment28. En bref, 5 à 10 millions de cellules CHP-212 ont été fixées dans 10 % de FCS-PBS avec 1 % de paraformaldéhyde pendant 10 min à température ambiante. La chromatine a été préparée comme décrit précédemment28 et cisaillée jusqu'à une taille de fragment de 200 à 500 pb. Les complexes H3K27me3-ADN ont été immunoprécipités pendant 15 h à 4 ° C avec un anticorps polyclonal anti-H3K27me3 (n° de catalogue 07-449, Sigma-Aldrich). Au total, 10 à 15 μg de chromatine et 2,5 μg d'anticorps ont été utilisés pour l'immunoprécipitation. Les bibliothèques pour le séquençage ont été préparées à l'aide d'adaptateurs Illumina Nextera conformément aux recommandations fournies. Les bibliothèques ont été séquencées en mode lecture unique de 50 pb dans un séquenceur Illumina HiSeq 4000. La qualité des fichiers FASTQ a été contrôlée avec FASTQC (v.0.11.8) et les adaptateurs ont été ajustés à l'aide de BBMap (v.38.58). Les lectures ont été alignées sur le hg19 à l'aide du BWA-MEM48 (v.0.7.15) avec les paramètres par défaut. Les lectures en double ont été supprimées à l'aide de Picard (v.2.20.4).

Nous avons obtenu la variation du nombre de copies publiques du CHP-212, les données ChIP-seq (H3K27ac, H3K4me1, CTCF) et ATAC-seq28,56. Pour une analyse plus approfondie, nous avons utilisé les pistes Bigwig traitées, filtrées pour exclure les régions de la liste noire du centre d'analyse de données ENCODE (DAC) et normalisées pour lire le nombre de comptes par million (CPM) dans des bacs de 10 bp, et les appels de pointe fournis par Helmsauer et al.28. Pour évaluer la corrélation des marques épigénétiques avec les régions du cercle, nous n'avons considéré que les régions du cercle qui ne se chevauchaient pas avec la variation du nombre de copies dans les régions de la liste noire CHP-212 ou ENCODE DAC. Pour les données H3K27ac, H3K4me1 et H3K27me3 ChIP-seq et ATAC-seq, nous avons calculé le signal CPM moyen dans toutes les régions du cercle, pondéré par les tailles de cercle respectives. Pour tester l'association statistique, nous avons créé 1 000 ensembles de données avec des positions de cercle aléatoires dans un génome masqué pour la variation du nombre de copies dans les régions de la liste noire CHP-212 et ENCODE DAC à l'aide de regioneR57 (v.1.24.0). Nous avons dérivé une valeur P empirique de la distribution du signal CPM moyen dans les régions de cercle randomisées. Pour les données CTCF ChIP-seq, nous avons calculé le pourcentage de bords de cercle chevauchant un pic CTCF et évalué la signification statistique en utilisant la même stratégie de randomisation que celle décrite ci-dessus.

L'analyse de l'ADN circulaire extrachromosomique a été effectuée comme décrit précédemment3. Les lectures ont été coupées en 3′ pour les séquences de qualité et d'adaptation, les lectures étant supprimées si la longueur était inférieure à 20 nucléotides. BWA-MEM (v.0.7.15) avec des paramètres par défaut a été utilisé pour aligner les lectures sur l'assemblage de référence humaine GRCh37/hg19 ; Les doublons PCR et optiques ont été supprimés avec Picard (v.2.16.0). Les cercles putatifs ont été classés selon une procédure en deux étapes. Tout d'abord, toutes les lectures fractionnées et les paires de lecture contenant une orientation de lecture orientée vers l'extérieur ont été placées dans un nouveau fichier BAM. Deuxièmement, les régions enrichies pour le signal sur fond avec un taux de fausse découverte < 0,001 ont été détectées dans le fichier BAM « toutes les lectures » à l'aide de fenêtres à largeur variable de Homer v.4.11 findPeaks (http://homer.ucsd.edu/) ; les bords de ces régions enrichies ont été intersectés avec les lectures supportant le cercle. Le seuil de détection du cercle a ensuite été déterminé de manière empirique sur la base d'un ensemble de témoins positifs d'ADN circulaires à partir de données de séquençage en vrac. Seules les régions enrichies intersectées par au moins deux lectures supportant le cercle ont été classées comme régions circulaires.

Pour évaluer l'enrichissement adéquat de l'ADN circulaire, nous avons utilisé la couverture sur l'ADNmt comme contrôle interne. Les cellules avec moins de dix lectures par profondeur de lecture de séquence de paires de bases sur l'ADNmt ou moins de 85% de bases génomiques capturées dans l'ADNmt ont été omises des analyses ultérieures. Les valeurs seuils ont été choisies en fonction des valeurs de profondeur de lecture maximales détectées dans les contrôles d'endonucléase (avec PmeI; Fig. 1c supplémentaire). Pour toutes les analyses en aval, nous n'avons considéré que les données de séquençage des cellules digérées avec une exonucléase pendant 5 jours. Étant donné que l'ADNmt n'est pas présent dans les noyaux, nous avons filtré les données Circle-seq à un seul noyau uniquement sur la base du contrôle de la qualité de l'ARN.

Le nombre de lectures des cercles putatifs a été quantifié à l'aide de bedtools multicov (https://bedtools.readthedocs.io) à partir de fichiers BAM unicellulaires dans des bacs de 100 Ko sur tous les chromosomes canoniques de l'assemblage du génome GRCh37/hg19. Les comptages ont été normalisés à la profondeur de séquençage dans chaque cellule et chaque bac a été marqué comme positif s'il contenait un enrichissement de lecture de cercle avec P <0, 05 par rapport à la distribution de lecture de fond. Les bacs ont ensuite été classés en trois groupes en fonction des coordonnées génomiques : (1) ecDNA si la région chevauchait l'amplicon assemblé à partir des données de séquençage en masse ; (2) chrM; et (3) tous les autres sites. La récidive a ensuite été analysée en traçant la fraction de cellules contenant un cercle détecté dans chacune des trois catégories.

La mise en phase de référence a été utilisée pour attribuer chaque SNP à l'un des deux allèles sur la base des données WGS en vrac. Ensuite, des cellules individuelles ont été génotypées pour comparer si le même allèle a été acquis dans chacune d'elles. Pour cette analyse, nous avons utilisé les SNP connus identifiés par le projet 1000 Genomes58 et extrait la couverture et le nombre de nucléotides pour chaque position annotée. Dans les régions présentant un déséquilibre allélique, comme les gains élevés en nombre de copies au niveau des locus ecDNA, la fréquence de l'allèle B d'un SNP hétérozygote est significativement différente de 0,5. Par conséquent, nous pourrions attribuer chaque SNP dans ces régions à l'allèle gagné ou non gagné. Nous avons ensuite également génotypé toutes les cellules individuelles à chaque emplacement SNP connu et visualisé les valeurs de fréquence de l'allèle B résultantes tout en conservant l'attribution de l'allèle à partir des données WGS en vrac.

La couverture moyenne sur tous les gènes annotés a été calculée et les gènes ont été divisés en gènes amplicon et non amplicon en fonction du chevauchement de leur emplacement génomique avec les régions ecDNA identifiées par cellule. La couverture de tous les gènes d'amplicon a été normalisée par la couverture de fond, c'est-à-dire la couverture moyenne winsorisée de tous les gènes non amplicon. Une moyenne winsorisée a été choisie pour tenir compte du fait que l'identification des régions ecDNA aurait pu être incomplète ; ainsi, les 5 % supérieurs et inférieurs des valeurs ont été supprimés de la couverture de fond. Les valeurs résultantes ont été transformées en log2 et utilisées comme proxy pour le nombre de copies d'ecDNA.

Le SV appelant scCircle-seq a été fait en utilisant lumpy-sv55 (v.0.2.14) et SvABA(v.1.1.0). À notre connaissance, aucun appelant SV dédié aux données ADN unicellulaires n'est disponible. Cependant, en raison du nombre élevé de copies d'ecDNA, les méthodes en masse fonctionnent.

SAMtools59 (v.1.11) a été utilisé pour fusionner tous les fichiers d'alignement de la même lignée cellulaire en un seul alignement pseudobulk. Pour obtenir une couverture plus proche du séquençage en masse standard, le fichier BAM résultant a ensuite été sous-échantillonné à 10 % de sa taille d'origine à l'aide de SAMtools. L'identification des SV dans WGS et la fusion des données scCircle-seq pour les lignées cellulaires TR14 et CHP-212 ont été réalisées à l'aide de lumpy-sv60 (v.0.3.1) et SvABA61 (v.1.1.0), tous deux avec des paramètres standard. Le prétraitement des fichiers BAM, qui comprenait un filtrage des lectures de taille inférieure (<20 bp) et de qualité inférieure (MAPQ <5), ainsi que la prise en charge du nombre de lectures et des calculs VAF, a été effectué à l'aide de SAMtools59 (v.1.10). Toutes les étapes d'analyse ont été réalisées en utilisant le génome de référence GRCh37/hg19. L'identification et le nombre de lectures prenant en charge les points d'arrêt SV ont été effectués en tenant compte des lectures fractionnées et mappées anormalement et en filtrant les lectures dupliquées et les alignements secondaires.

Pour assurer la compatibilité avec les rapports de variation mitochondriale standard62, chaque échantillon de séquençage unicellulaire a été réaligné sur GRCh37/hg19 avec une référence mitochondriale révisée de la séquence de référence de Cambridge (GenBank n° NC_012920) à l'aide de BWA-MEM63 (v.0.7.17). Les lectures en double ont été supprimées à l'aide de Picard (v.2.23.8). GATK4/Mutect264 (v.4.1.9.0) avec les paramètres par défaut a été utilisé pour appeler des variants en masse du génome entier et des données de séquençage scCircle-seq fusionnées (pseudobulk). Seules les variantes sur les chromosomes canoniques (y compris chrM) et les GATK4/FilterMutectCalls passants ont été conservées puis filtrées pour les régions précédemment reconstruites pour les lignées cellulaires respectives (Fig. 3a) à l'aide du filtre bcftools avec flag-r.

Pour l'identification du SNV mitochondrial dans des cellules individuelles, nous avons appliqué un pipeline personnalisé composé de GATK4/Mutect2 (réf. 64) (v.4.1.9.0) en mode mitochondrie et de Mutserve65 (v.2.0.0-rc12), un appelant variant optimisé pour détecter les sites hétéroplasmiques dans les données de séquençage mitochondrial, avec des paramètres par défaut. Premièrement, les variantes ont été appelées par les deux appelants pour chaque cellule séparément. Les variantes ont ensuite été filtrées selon un processus en deux étapes : (1) les variantes n'ont été retenues que si elles ont été appelées dans au moins deux échantillons par le même appelant ; et (2) les variantes restantes n'étaient conservées que si elles étaient appelées par les deux appelants. Les variantes étiquetées "liste noire" par Mutserve ont été supprimées. Pour déduire la fréquence des allèles pour chaque variante dans l'ensemble final, chaque cellule a ensuite été soumise à un génotypage à l'aide d'alleleCount (v.4.0.2) (https://github.com/cancerit/alleleCount). Seules les lectures cartographiant uniquement la référence mitochondriale et avec une qualité de cartographie ≥ 30 ont été conservées. Pour chaque allèle alternatif appelé b à la position x, la fréquence allélique (AF) a été calculée comme suit :

La matrice AF monocellulaire x variante résultante a ensuite été filtrée manuellement et séparément pour chaque lignée cellulaire. Les cellules individuelles avec moins de trois variantes et les variantes avec une fréquence maximale d'allèles de colonne < 5 %, AF moyenne (MAF) > 30 % et MAF < 0,1 % pour CHP-212 ainsi que MAF > 30 % et MAF < 0,1 % pour TR14 ont été considérées comme non informatives pour le regroupement et supprimées sur la base d'une vérification ponctuelle.

La visualisation par carte thermique de la matrice AF filtrée à cellule unique x variable a été générée à l'aide du package R ComplexHeatmap66 (v.2.6.2). Le regroupement hiérarchique a ensuite été appliqué aux cellules individuelles à l'aide du package R hclust avec le paramètre de méthode d'agglomération "complet". Les arbres phylogénétiques ont été rendus à l'aide du package R dendextend (v.1.15.2).

L'analyse de microhomologie a été réalisée à l'aide de NCBI BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi) avec les paramètres suivants : blastn -task megablast -word_size = 4 -evalue = 1 -outfmt '6 qseqid length evalue' -subject_besthit -reward = 1 -penalty = -2. Ces paramètres recherchent une longueur de microhomologie minimale de 4 pb et les valeurs standard de récompense et de pénalité pour la correspondance et la non-concordance des nucléotides. De plus, nous n'avons considéré que les résultats significatifs avec une valeur Expect < 1. Pour évaluer la présence de microhomologie autour des jonctions circulaires d'ADN, nous avons généré des fichiers qui incluent 100 bp autour du début et de la fin du cercle (50 bp à l'intérieur de l'ADN circulaire et 50 bp d'ADN linéaire). Pour pouvoir effectuer cette analyse, nous avons filtré tous les cercles d'une longueur <100 bp. Ensuite, nous avons comparé les séquences pour chaque paire de début et de fin (une jonction circulaire), en évaluant et en récupérant les séquences microhomologues autour de la jonction circulaire. Cette analyse a été répétée pour chaque cercle individuel dans les lignées cellulaires CHP-212 et TR14.

Les cellules et les noyaux ont été chargés dans Seurat67 (v.4.10); les caractéristiques qui ont été détectées dans au moins trois cellules ont été incluses. Par la suite, les cellules avec 5 000 caractéristiques ou plus dans les lignées cellulaires et 2 000 caractéristiques dans les cellules T et les noyaux ont été sélectionnées pour une analyse plus approfondie. Les cellules ou les noyaux à forte expression de gènes mitochondriaux (> 15 % dans les cellules individuelles et> 2, 5 % dans les noyaux) ont également été exclus. Les données ont été normalisées avec un facteur d'échelle de 10 000 et mises à l'échelle à l'aide des paramètres ScaleData par défaut. Pour tenir compte de la longueur du gène et du nombre total de lectures dans chaque cellule, les données Smart-seq2 ont été normalisées à l'aide de transcriptions par million ; ensuite, un pseudo-compte de un a été ajouté et une transformation logarithmique naturelle a été appliquée. Les quatre premiers composants principaux étaient significatifs; par conséquent, les cinq premiers composants principaux ont été utilisés pour FindNeighbors et RunUMAP afin de capturer autant de variations que possible, comme recommandé par les auteurs de Seurat. La résolution de FindClusters a été définie sur 0,5.

La phase du cycle cellulaire a été attribuée à des cellules individuelles en fonction de l'expression des marqueurs de phase G2/M et S à l'aide de la fonction Seurat CellCycleScoring.

De très petits ADN circulaires ont été définis comme des cercles de moins de 3 kb. Pour calculer le nombre relatif de ce sous-type de petits ADN circulaires par cellule, le nombre d'ADN circulaires <3 kb a été divisé par le nombre total de cercles dans une cellule. Les cellules ont été classées en fonction de leur nombre relatif et regroupées en prenant les 40 % supérieurs et inférieurs de la liste classée, définis comme « élevé » et « faible », respectivement. Le changement de pli logarithmique de l'expression génique entre les deux groupes a été calculé à l'aide de la fonction FindMarkers dans le package Seurat R67 (v.4.10) sans seuil de changement de pli logarithmique et un taux de détection minimum par gène de 0,05. Le package R clusterProfiler68 (v.4.0.5) a été utilisé pour effectuer une GSEA non supervisée de termes d'ontologie génique à l'aide de gseGO et incluant des ensembles de gènes avec au moins trois gènes et un maximum de 800 gènes.

La couverture des régions d'amplicon ecDNA dans les fichiers BAM scCircle-seq et scRNA-seq a été calculée avec bamCoverage55 en utilisant la normalisation CPM. La corrélation entre la couverture Circle-seq et RNA-seq a été analysée en ajustant un modèle linéaire.

Les fichiers FASTQ d'ARN-seq unicellulaires à extrémité appariée ont été fusionnés (96 cellules pour TR14 et 192 cellules pour CHP-212). Les données fusionnées obtenues ont été alignées avec STAR69 (v.2.7.9a) sur le leurre de référence GRCh37/hs37d5, en utilisant l'annotation du gène GENCODE 19, permettant un alignement chimérique (--chimOutType WithinBAM SoftClip). Pour appeler et visualiser les gènes de fusion, Arriba70 (v.2.1.0) a été appliqué, avec les paramètres personnalisés -F 150 -U 700. L'ensemble final d'appels confiants ne comprenait que des fusions avec (1) une couverture totale sur le point d'arrêt ≥ 50 × et (2) ≥ 30 % des lectures cartographiées étant des lectures fractionnées ou discordantes. Seuls les gènes de fusion à proximité (± 10 Mb) des limites de l'amplicon ont été pris en compte pour l'analyse en aval.

Nous avons utilisé les reconstructions d'amplicons fournies par Helmsauer et al.28 pour CHP-212 et Hung et al.23 pour TR14. En bref, ces reconstructions ont été obtenues en organisant un ensemble filtré d'appels SV Illumina WGS (CHP-212) et Nanopore WGS (TR14) sous forme de graphiques génomiques à l'aide de gGnome71 (v.0.1) (intervalles génomiques en tant que nœuds et référence ou SV en tant que bords). Ensuite, des chemins circulaires à travers ces graphiques ont été identifiés qui incluaient les oncogènes amplifiés et pourraient expliquer les principales étapes du nombre de copies observées dans la lignée cellulaire respective. Pour les deux patients ajoutés à l'étude, le patient no. 1 et patient n°. 2, des données Nanopore peu profondes sur le génome entier ont été générées comme décrit par Helmsauer et al.28. L'appel de base, le filtrage de lecture (NanoFilt -l 300), le mappage et l'appel SV ont été effectués comme décrit précédemment dans les méthodes ("Nanopore scCircle-seq data processing"). Pour la reconstruction de l'ecDNA, un ensemble d'appels SV confiants a été compilé (variante AF> 0, 2 et lectures de support ≥ 50 ×). Comme pour CHP-212 et TR14, un graphique du génome a été construit à l'aide de gGnome61 (v.0.1) et organisé manuellement. Pour vérifier l'exactitude de la structure de l'amplicon pour les échantillons de patients, des lectures Nanopore simulées en silico ont été échantillonnées à partir de l'amplicon reconstruit à l'aide d'une version adaptée de PBSIM2 (réf. 72) (https://github.com/madagiurgiu25/pbsim2) et prétraitées comme les échantillons de patients d'origine. Enfin, les profils SV entre les échantillons originaux et la simulation in silico ont été comparés. Tous les amplicons reconstruits ont été visualisés à l'aide de gTrack (v.0.1.0 ; https://github.com/mskilab/gTrack), y compris le génome de référence GRCh37/hg19 et la piste GENCODE 19.

Nous avons utilisé l'algorithme de classification circulaire décrit précédemment pour définir des régions circulaires enrichies en ADN dans des cellules individuelles. Pour chaque cellule, nous avons défini si les régions circulaires enrichies en ADN chevauchaient l'amplicon ecDNA (MYNC, CDK4, MDM2) assemblé à partir des données de séquençage en vrac TR14 à l'aide de la fonction findOverlaps du package R GenomicRanges73 (v.1.44.0). La présence ou l'absence de chevauchement a été définie pour chacun des trois ADNc MYNC, CDK4, MDM2 indépendamment, à l'exclusion des régions d'amplicon partagées par les ADNc MYCN et CDK4.

Aucune méthode statistique n'a été utilisée pour prédéterminer la taille de l'échantillon. Aucune donnée n'a été exclue des analyses. Les expériences n'ont pas été randomisées et les enquêteurs n'ont pas été aveuglés à l'attribution au cours des expériences et de l'évaluation des résultats. Les expériences FISH ont été réalisées une fois par lignée cellulaire et tumeur primaire.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Les données de séquençage générées dans cette étude sont disponibles dans les archives européennes du génome-phénome sous le numéro d'accès. EGAS00001007026. Les fichiers ChIP-seq NarrowPeak et Bigwig ont été téléchargés à partir de https://data.cyverse.org/dav-anon/iplant/home/konstantin/helmsaueretal/. Toutes les autres données sont disponibles auprès de l'auteur correspondant sur demande raisonnable. Les données sources sont fournies avec ce document.

Le code d'analyse des données associé à cette publication est disponible sur https://github.com/henssen-lab/scEC-T-seq.

Stuart, T. & Satija, R. Analyse unicellulaire intégrative. Nat. Révérend Genet. 20, 257-272 (2019).

CAS PubMed Google Scholar

Turner, KM et al. L'amplification d'oncogènes extrachromosomiques entraîne l'évolution tumorale et l'hétérogénéité génétique. Nature 543, 122-125 (2017).

CAS PubMed PubMed Central Google Scholar

Koche, RP et al. L'ADN circulaire extrachromosomique entraîne le remodelage du génome oncogène dans le neuroblastome. Nat. Genet. 52, 29-34 (2020).

CAS PubMed Google Scholar

Shibata, Y. et al. MicroADN extrachromosomiques et microdélétions chromosomiques dans les tissus normaux. Sciences 336, 82–86 (2012).

CAS PubMed PubMed Central Google Scholar

Moller, HD et al. Les éléments d'ADN circulaires d'origine chromosomique sont courants dans les tissus somatiques humains sains. Nat. Commun. 9, 1069 (2018).

PubMed PubMed Central Google Scholar

Wang, Y. et al. Les eccDNA sont des produits apoptotiques à forte activité immunostimulatrice innée. Nature 599, 308–314 (2021).

CAS PubMed PubMed Central Google Scholar

Cohen, S., Regev, A. & Lavi, S. Petit ADN circulaire polydispersé (spcDNA) dans les cellules humaines : association avec l'instabilité génomique. Oncogène 14, 977-985 (1997).

CAS PubMed Google Scholar

Henson, JD et al. Les cercles C d'ADN sont des marqueurs spécifiques et quantifiables de l'activité alternative d'allongement des télomères. Nat. Biotechnol. 27, 1181-1185 (2009).

CAS PubMed Google Scholar

Okazaki, K., Davis, DD & Sakano, séquences du gène β du récepteur des cellules H. T dans l'ADN circulaire des noyaux des thymocytes: preuve directe de la suppression intramoléculaire de l'ADN dans la jonction VDJ. Cellule 49, 477–485 (1987).

CAS PubMed Google Scholar

Verhaak, RGW, Bafna, V. & Mischel, PS Amplification oncogène extrachromosomique dans la pathogenèse et l'évolution des tumeurs. Nat. Rev. Cancer 19, 283–288 (2019).

CAS PubMed PubMed Central Google Scholar

Kim, H. et al. L'ADN extrachromosomique est associé à une amplification des oncogènes et à de mauvais résultats dans plusieurs cancers. Nat. Genet. 52, 891–897 (2020).

CAS PubMed PubMed Central Google Scholar

Cox, D., Yuncken, C. & Spriggs, AI Minuscules corps de chromatine dans les tumeurs malignes de l'enfance. Lancet 1, 55–58 (1965).

CAS PubMed Google Scholar

Lee, J., Hyeon, DY & Hwang, D. Multiomique unicellulaire : technologies et méthodes d'analyse de données. Exp. Mol. Méd. 52, 1428-1442 (2020).

CAS PubMed PubMed Central Google Scholar

Levan, A. & Levan, G. Avez-vous des centromères fonctionnant à deux minutes ? Hereditas 88, 81–92 (1978).

CAS PubMed Google Scholar

Barker, PE, Drwinga, HL, Hittelman, WN & Maddox, AM Les doubles minutes se répliquent une fois pendant la phase S du cycle cellulaire. Exp. Cell Res. 130, 353–360 (1980).

CAS PubMed Google Scholar

Mark, J. Double-minutes - une aberration chromosomique dans les sarcomes de Rous chez la souris. Hereditas 57, 1–22 (1967).

CAS PubMed Google Scholar

Yi, E. et al. L'imagerie des cellules vivantes montre une ségrégation inégale des éléments d'ADN extrachromosomiques et des hubs d'ADN extrachromosomiques transcriptionnellement actifs dans le cancer. Découverte du cancer. 12, 468–483 (2022).

CAS PubMed Google Scholar

Yi, E., Chamorro González, R., Henssen, AG & Verhaak, RGW Amplifications d'ADN extrachromosomiques dans le cancer. Nat. Révérend Genet. 23, 760–771 (2022).

CAS PubMed Google Scholar

van Leen, E., Brückner, L. & Henssen, AG La mobilité génomique et spatiale de l'ADN extrachromosomique et ses implications pour le traitement du cancer. Nat. Genet. 54, 107–114 (2022).

CAS PubMed Google Scholar

de Carvalho, AC et al. L'hérédité discordante des éléments d'ADN chromosomiques et extrachromosomiques contribue à l'évolution dynamique de la maladie dans le glioblastome. Nat. Genet. 50, 708–717 (2018).

CAS PubMed PubMed Central Google Scholar

Nathanson, DA et al. Résistance thérapeutique ciblée médiée par la régulation dynamique de l'ADN EGFR mutant extrachromosomique. Sciences 343, 72-76 (2014).

CAS PubMed Google Scholar

Lange, JT et al. La dynamique évolutive de l'ADN extrachromosomique dans les cancers humains. Nat. Genet. 54, 1527-1533 (2022).

CAS PubMed PubMed Central Google Scholar

Hung, KL et al. Les hubs ecDNA conduisent l'expression coopérative d'oncogènes intermoléculaires. Nature 600, 731–736 (2021).

CAS PubMed PubMed Central Google Scholar

Zhu, Y. et al. L'ADN extrachromosomique oncogène fonctionne comme des amplificateurs mobiles pour amplifier globalement la transcription chromosomique. Cellule cancéreuse 39, 694–707 (2021).

CAS PubMed PubMed Central Google Scholar

Møller, HD, Parsons, L., Jørgensen, TS, Botstein, D. & Regenberg, B. L'ADN circulaire extrachromosomique est courant chez la levure. Proc. Natl Acad. Sci. États-Unis 112, E3114–E3122 (2015).

PubMed PubMed Central Google Scholar

Picelli, S. et al. Smart-seq2 pour le profilage sensible du transcriptome sur toute la longueur dans des cellules individuelles. Nat. Méthodes 10, 1096–1098 (2013).

CAS PubMed Google Scholar

Macaulay, IC et al. G&T-seq : séquençage parallèle de génomes unicellulaires et de transcriptomes. Nat. Méthodes 12, 519–522 (2015).

CAS PubMed Google Scholar

Helmsauer, K. et al. Le détournement d'amplificateur détermine l'architecture d'amplicon MYCN circulaire extrachromosomique dans le neuroblastome. Nat. Commun. 11, 5823 (2020).

CAS PubMed PubMed Central Google Scholar

Morton, AR et al. Les amplificateurs fonctionnels façonnent les amplifications d'oncogènes extrachromosomiques. Cellule 179, 1330-1341 (2019).

CAS PubMed PubMed Central Google Scholar

Deshpande, V. et al. Explorer le paysage des amplifications focales dans le cancer à l'aide d'AmpliconArchitect. Nat. Commun. 10, 392 (2019).

CAS PubMed PubMed Central Google Scholar

Nowell, PC L'évolution clonale des populations de cellules tumorales. Sciences 194, 23-28 (1976).

CAS PubMed Google Scholar

Ludwig, LS et al. Traçage de la lignée chez l'homme activé par des mutations mitochondriales et la génomique unicellulaire. Cellule 176, 1325-1339 (2019).

CAS PubMed PubMed Central Google Scholar

Wahl, GM L'importance de l'ADN circulaire dans l'amplification des gènes de mammifères. Cancer Rés. 49, 1333-1340 (1989).

CAS PubMed Google Scholar

Shoshani, O. et al. La chromothripsie est à l'origine de l'évolution de l'amplification génique dans le cancer. Nature 591, 137-141 (2021).

CAS PubMed Google Scholar

Dillon, LW et al. La production de microADN extrachromosomiques est liée aux voies de réparation des mésappariements et à l'activité transcriptionnelle. Cell Rep. 11, 1749–1759 (2015).

CAS PubMed PubMed Central Google Scholar

Tatman, PD & Black, JC L'ADN circulaire extrachromosomique des tumeurs TCGA est généré à partir de loci génomiques communs, se caractérise par une auto-homologie et des motifs d'ADN près des points de rupture du cercle. Cancers 14, 2310 (2022).

CAS PubMed PubMed Central Google Scholar

Paulsen, T. et al. Les niveaux de microADN dépendent du MMEJ, réprimés par la voie c-NHEJ et stimulés par les dommages à l'ADN. Nucleic Acids Res. 49, 11787–11799 (2021).

CAS PubMed PubMed Central Google Scholar

Sunnerhagen, P., Sjöberg, RM, Karlsson, AL, Lundh, L. & Bjursell, G. Clonage moléculaire et caractérisation d'un petit ADN circulaire polydispersé de cellules 3T6 de souris. Nucleic Acids Res. 14, 7823–7838 (1986).

CAS PubMed PubMed Central Google Scholar

Huang, C., Jia, P., Chastain, M., Shiva, O. & Chai, W. Le complexe humain CTC1/STN1/TEN1 régule le maintien des télomères dans les cellules cancéreuses ALT. Exp. Cell Res. 355, 95-104 (2017).

CAS PubMed PubMed Central Google Scholar

Downey, M. & Durocher, D. Réparation de la chromatine et de l'ADN : les bienfaits de la relaxation. Nat. Cell Biol. 8, 9–10 (2006).

CAS PubMed Google Scholar

Phillips, JE & Corces, VG CTCF : maître tisserand du génome. Cellule 137, 1194-1211 (2009).

PubMed PubMed Central Google Scholar

Wu, S. et al. L'ecDNA circulaire favorise l'accessibilité de la chromatine et l'expression élevée des oncogènes. Nature 575, 699-703 (2019).

CAS PubMed PubMed Central Google Scholar

Rosswog, C. et al. La chromothripsie suivie d'une recombinaison circulaire entraîne l'amplification de l'oncogène dans le cancer humain. Nat. Genet. 53, 1673-1685 (2021).

CAS PubMed Google Scholar

Sanders, AD, Falconer, E., Hills, M., Spierings, DCJ & Lansdorp, PM Le séquençage de brin de matrice à cellule unique par Strand-seq permet la caractérisation d'homologues individuels. Nat. Protocole 12, 1151-1176 (2017).

CAS PubMed Google Scholar

Sanders, AD et al. Analyse unicellulaire des variations structurelles et des réarrangements complexes avec traitement tri-canal. Nat. Biotechnol. 38, 343–354 (2020).

CAS PubMed Google Scholar

González, RC, Conrad, T., Kasack, K. et Henssen, AG scEC & T-seq : une méthode de séquençage parallèle d'ADN circulaires extrachromosomiques et de transcriptomes dans des cellules humaines individuelles. https://doi.org/10.21203/rs.3.pex-2180/v1

Krueger, F., James, F., Ewels, P., Afyounian, E. & Schuster-Boeckler, B. TrimGalore v.0.6.7. Zénode https://zenode.org/record/5127899#.ZDUyQuzMIqs (2021).

Li, H. Alignement des lectures de séquences, des séquences de clones et des contigs d'assemblage avec BWA-MEM. Préimpression sur arXiv https://doi.org/10.48550/arXiv.1303.3997 (2013).

Regev, A. et al. L'atlas des cellules humaines. eLife 6, e27041 (2017).

PubMed PubMed Central Google Scholar

Kim, D., Paggi, JM, Park, C., Bennett, C. & Salzberg, SL Alignement et génotypage du génome basés sur des graphiques avec HISAT2 et HISAT-genotype. Nat. Biotechnol. 37, 907–915 (2019).

CAS PubMed PubMed Central Google Scholar

Davis, CA et al. L'Encyclopédie des éléments d'ADN (ENCODE) : mise à jour du portail de données. Nucleic Acids Res. 46, D794–D801 (2018).

CAS PubMed Google Scholar

Li, B. & Dewey, CN RSEM : quantification précise de la transcription à partir des données RNA-Seq avec ou sans génome de référence. BMC Bioinformatique 12, 323 (2011).

CAS PubMed PubMed Central Google Scholar

De Coster, W., D'Hert, S., Schultz, DT, Cruts, M. & Van Broeckhoven, C. NanoPack : visualisation et traitement de données de séquençage à lecture longue. Bioinformatique 34, 2666–2669 (2018).

CAS PubMed PubMed Central Google Scholar

Sedlazeck, FJ et al. Détection précise des variations structurelles complexes à l'aide du séquençage d'une seule molécule. Nat. Méthodes 15, 461–468 (2018).

CAS PubMed PubMed Central Google Scholar

Ramírez, F. et al. deepTools2 : un serveur Web de nouvelle génération pour l'analyse de données de séquençage en profondeur. Nucleic Acids Res. 44, W160–W165 (2016).

PubMed PubMed Central Google Scholar

Boeva, V. et al. Hétérogénéité de l'identité des cellules de neuroblastome définie par les circuits transcriptionnels. Nat. Genet. 49, 1408-1413 (2017).

CAS PubMed Google Scholar

Gel, B. et al. regioneR : un package R/Bioconductor pour l'analyse d'association de régions génomiques basée sur des tests de permutation. Bioinformatique 32, 289-291 (2016).

CAS PubMed Google Scholar

Auton, A. et al. Une référence mondiale pour la variation génétique humaine. Nature 526, 68–74 (2015).

Google Scholar PubMed

Danecek, P. et al. Douze ans de SAMtools et BCFtools. Gigascience 10, giab008 (2021).

PubMed PubMed Central Google Scholar

Layer, RM, Chiang, C., Quinlan, AR & Hall, IM LUMPY : un cadre probabiliste pour la découverte de variantes structurelles. Génome Biol. 15, R84 (2014).

PubMed PubMed Central Google Scholar

Wala, JA et al. SvABA : détection à l'échelle du génome des variants structuraux et des indels par assemblage local. Génome Res. 28, 581-591 (2018).

CAS PubMed PubMed Central Google Scholar

Bandelt, HJ, Kloss-Brandstatter, A., Richards, MB, Yao, YG & Logan, I. Les arguments en faveur de l'utilisation continue de la séquence de référence de Cambridge révisée (rCRS) et de la normalisation de la notation dans les études sur l'ADN mitochondrial humain. J. Hum. Genet 59, 66–77 (2014).

CAS PubMed Google Scholar

Li, H. & Durbin, R. Alignement à lecture longue rapide et précis avec la transformée de Burrows – Wheeler. Bioinformatique 26, 589–595 (2010).

PubMed PubMed Central Google Scholar

Cibulskis, K. et al. Détection sensible des mutations ponctuelles somatiques dans des échantillons de cancer impurs et hétérogènes. Nat. Biotechnol. 31, 213-219 (2013).

CAS PubMed PubMed Central Google Scholar

Weissensteiner, H. et al. mtDNA-Server : analyse des données de séquençage de nouvelle génération de l'ADN mitochondrial humain dans le cloud. Nucleic Acids Res. 44, W64–W69 (2016).

CAS PubMed PubMed Central Google Scholar

Gu, Z., Eils, R. & Schlesner, M. Les cartes thermiques complexes révèlent des modèles et des corrélations dans les données génomiques multidimensionnelles. Bioinformatique 32, 2847–2849 (2016).

CAS PubMed Google Scholar

Hao, Y. et al. Analyse intégrée de données unicellulaires multimodales. Cellule 184, 3573–3587 (2021).

CAS PubMed PubMed Central Google Scholar

Yu, G., Wang, L.-G., Han, Y. & He, Q.-Y. clusterProfiler : un package R pour comparer des thèmes biologiques entre des clusters de gènes. OMICS 16, 284–287 (2012).

CAS PubMed PubMed Central Google Scholar

Dobin, A. et al. STAR : aligneur RNA-seq universel ultrarapide. Bioinformatique 29, 15–21 (2013).

CAS PubMed Google Scholar

Uhrig, S. et al. Détection précise et efficace des fusions de gènes à partir des données de séquençage d'ARN. Génome Res. 31, 448–460 (2021).

PubMed PubMed Central Google Scholar

Hadi, K. et al. Des classes distinctes de variations structurelles complexes découvertes dans des milliers de graphiques du génome du cancer. Cellule 183, 197-210 (2020).

CAS PubMed PubMed Central Google Scholar

Ono, Y., Asai, K. & Hamada, M. PBSIM2 : un simulateur pour les séquenceurs à lecture longue avec un nouveau modèle génératif de scores de qualité. Bioinformatique 37, 589–595 (2021).

CAS PubMed Google Scholar

Lawrence, M. et al. Logiciel de calcul et d'annotation de plages génomiques. Calcul PLoS. Biol. 9, e1003118 (2013).

CAS PubMed PubMed Central Google Scholar

Télécharger les références

AGH est soutenu par la Deutsche Forschungsgemeinschaft (DFG) (subvention n° 398299703). Ce projet a reçu un financement du Conseil européen de la recherche dans le cadre du programme de recherche et d'innovation Horizon 2020 de l'Union européenne (subvention n° 949172). AGH est soutenu par le programme de chaire Deutsche Krebshilfe Mildred Scheel no. 70114107. Ce projet a été soutenu par l'Institut de santé de Berlin (BIH). Le calcul a été effectué sur le cluster HPC for Research du BIH. Le projet qui a donné lieu à ces résultats a reçu le soutien d'une bourse de la Fondation 'la Caixa' (n° 100010434). Le code de bourse est LCF/BQ/EU20/11810051. ER-F. est soutenu par la Fondation Alexander von Humboldt. RX est pris en charge par Deutsche Krebshilfe. RPK est un professeur invité de BIH financé par la Stiftung Charité. MCS est financé par le groupe de formation à la recherche financé par DFG 2424/CompCancer. RFS est professeur au Centre de recherche sur le cancer de Cologne Essen financé par le ministère de la Culture et des Sciences de l'État de Rhénanie du Nord-Westphalie. Ce travail a été partiellement financé par le ministère allemand de l'éducation et de la recherche sous le nom de BIFOLD (Berlin Institute for the Foundations of Learning and Data) (réfs. 01IS18025A et 01IS18037A). Ce travail a été réalisé dans le cadre de l'équipe eDyNAmiC soutenue par le partenariat Cancer Grand Challenges financé par Cancer Research UK (HYC no. CGCATF-2021/100012, AGH no. CGCATF-2021/100017) et le National Cancer Institute (HYC no. OT2CA278688, AGH no.

Ces auteurs ont conjointement supervisé ce travail : Richard P. Koche et Anton G. Henssen.

Département d'oncologie et d'hématologie pédiatriques, Charité - Universitätsmedizin Berlin, membre corporatif de Freie Universität Berlin, Humboldt-Universität zu Berlin, Berlin, Allemagne

Rocío Chamorro González, Robin Xu, Mădălina Giurgiu, Elias Rodriguez-Fos, Eric van Leen, Konstantin Helmsauer, Heathcliff Dorado Garcia, Yi Bei, Karin Schmelz, Marco Lodrini, Hedwig E. Deubzer, Angelika Eggert, Johannes H. Schulte, Kerstin Haase et Anton G. Henssen

Centre de recherche expérimentale et clinique du MDC et de la Charité Berlin, Berlin, Allemagne

Rocío Chamorro González, Robin Xu, Mădălina Giurgiu, Elias Rodriguez-Fos, Lotte Brückner, Eric van Leen, Konstantin Helmsauer, Heathcliff Dorado Garcia, Yi Bei, Hedwig E. Deubzer, Kerstin Haase & Anton G. Henssen

Plateforme technologique de génomique, Centre Max Delbrück de médecine moléculaire de l'Association Helmholtz, Berlin, Allemagne

Thomas Conrad

Institut de biologie des systèmes médicaux de Berlin, Centre Max Delbrück de médecine moléculaire de l'Association Helmholtz, Berlin, Allemagne

Maja C. Stöber, Sascha Sauer & Roland F. Schwarz

Charité - Universitätsmedizin Berlin, Berlin, Allemagne

Maya C. Stoeber

Faculté des sciences de la vie, Université Humboldt de Berlin, Berlin, Allemagne

Maya C. Stoeber

Université libre de Berlin, Berlin, Allemagne

Madalina Giurgiu

Institut Fraunhofer de thérapie cellulaire et d'immunologie, branche bioanalyse et bioprocédés IZI-BB, Potsdam, Allemagne

Katharina Kasak

Centre Max Delbrück de médecine moléculaire, Berlin, Allemagne

Lotte Brückner & Anton G. Henssen

RG Development and Disease, Institut Max Planck de génétique moléculaire, Berlin, Allemagne

Maria E. Stefanova & Stefan Mundlos

Institut de génétique médicale, Charité - Universitätsmedizin Berlin, Berlin, Allemagne

Maria E. Stefanova & Stefan Mundlos

Center for Personal Dynamic Regulomes, École de médecine de l'Université de Stanford, Stanford, Californie, États-Unis

King L. Hung et Howard Y. Chang

Centre de thérapies régénératives de Berlin-Brandebourg, Charité - Universitätsmedizin Berlin, Berlin, Allemagne

Stefan Mundlos

Howard Hughes Medical Institute, École de médecine de l'Université de Stanford, Stanford, Californie, États-Unis

Howard Y.Chang

German Cancer Consortium, site partenaire de Berlin, et German Cancer Research Center, Heidelberg, Allemagne

Hedwig E. Deubzer, Angelika Eggert, Johannes H. Schulte, Kerstin Haase & Anton G. Henssen

Institut de santé de Berlin, Berlin, Allemagne

Hedwig E. Deubzer, Angelika Eggert & Johannes H. Schulte

Institut de biologie computationnelle du cancer, Centre d'oncologie intégrée, Centre de recherche sur le cancer Cologne Essen Faculté de médecine et hôpital universitaire de Cologne, Université de Cologne, Cologne, Allemagne

Roland F. Schwarz

Institut de Berlin pour les fondements de l'apprentissage et des données, Berlin, Allemagne

Roland F. Schwarz

Centre de recherche en épigénétique, Memorial Sloan Kettering Cancer Center, New York, NY, États-Unis

Richard P. Koche

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

RCG, TC, RPK et AGH ont contribué à la conception de l'étude ainsi qu'à la collecte et à l'interprétation des données. RCG, TC et KK ont réalisé les expériences sur cellule unique. RPK, RCG et K.Haase ont effectué l'analyse des données scCircle-seq et WGS. ER-F. et MG a effectué l'analyse SV des données unicellulaires et WGS. EV et MCS ont effectué l'analyse des données scRNA-seq. MG a effectué les analyses de détection du gène de fusion. RX a effectué les analyses SNV dans les données unicellulaires et WGS. LB a réalisé et analysé le FISH. K.Helmsauer et MG ont effectué les analyses de reconstruction d'amplicon. MES a effectué le ChIP-seq. K.Helmsauer a effectué les analyses ChIP-seq. HDG, KS, YB, ML et KLH ont réalisé les expériences et contribué à l'analyse des données. SM, HYC, HED, SS, AE, JHS et RFS ont contribué à la conception de l'étude. RCG, RPK et AGH ont dirigé la conception de l'étude, effectué l'analyse des données et rédigé le manuscrit, auquel tous les auteurs ont contribué.

Correspondance à Anton G. Henssen.

RPK et AGH sont les fondateurs d'Econic Biosciences Ltd.

Nature Genetics remercie Andrea Ventura, Jan Korbel et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Les rapports des pairs examinateurs sont disponibles.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Fig. supplémentaires. 1–18, Tableau 7 et Remarque 1.

Tableaux supplémentaires 1 à 7.

Données sources statistiques pour la Fig. 1.

Données sources statistiques pour la Fig. 4.

Données sources statistiques pour la Fig. 5.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Chamorro González, R., Conrad, T., Stöber, MC et al. Séquençage parallèle d'ADN circulaires extrachromosomiques et de transcriptomes dans des cellules cancéreuses uniques. Nat Genet 55, 880–890 (2023). https://doi.org/10.1038/s41588-023-01386-y

Télécharger la citation

Reçu : 20 décembre 2021

Accepté : 28 mars 2023

Publié: 04 mai 2023

Date d'émission : Mai 2023

DOI : https://doi.org/10.1038/s41588-023-01386-y

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt