Stocker des données dans l’ADN : une révolution en préparation
L’avènement de l’IA s’accompagne d’une quantité considérable de données. Il sera essentiel de pouvoir les stocker et d’y accéder facilement ; c’et là que la bioscience entre en scène.

Un scientifique examine un profil ADN (acide désoxyribonucléique) sur un écran.
L’intégralité des sonnets de Shakespeare, huit de ses tragédies, toutes les pages anglaises de Wikipédia et l’un des premiers films jamais réalisés : les scientifiques ont pu faire tenir tout ceci dans un espace plus petit qu’un minuscule tube à essai. Ils n’ont pourtant pas eu besoin de les miniaturiser. Ils ont utilisé l’ADN, l’origine de toute la vie, afin d’encoder les informations de ces créations avant de les stocker à une échelle microscopique.
Alors que les êtres humains adoptent l’utilisation d’outils avancés telle que l’intelligence artificielle, le stockage va devenir la monnaie de demain. Les géants de la tech commencent déjà à lever des fonds à hauteur de plusieurs milliards de dollars afin de construire des data centers pour leurs IA - c’est le cas de Microsoft. C’est une véritable « guerre de stockage » qui pointe à l’horizon, dont l’enjeu est de préserver et de protéger des quantités toujours plus importantes et exponentielles de données. Les data centers de la taille d’un terrain de football, d’une gourmandise en énergie qui relève de l'indécence, figurent parmi les options. Mais le stockage ADN pourrait être une solution moins énergétique et plus compacte.
PREMIÈRE ÉTAPE : LE STOCKAGE INFORMATIQUE
Quand on pense à l’ADN, on voit généralement un plan de construction, un livret d’instructions fait de séquences de A, de T, de C et de G menant les machines moléculaires à la baguette pour façonner la vie telle qu’elle est. Le stockage ADN retourne complètement ce paradigme. Les données informatiques sont les données saisies, et l’ADN est le produit final.
Une poignée de start-ups travaillent à perfectionner la conversion du code informatique binaire en brins d’ADN physiques. Ce faisant, elles participent au chamboulement de l’industrie multimilliardaire du stockage de données.
Le stockage traditionnel des données repose sur une migration constante afin de prévenir la dégradation des anciennes données ou l’obsolescence de la technologie où elles sont stockées. Varun Mehta, P.D.-G. de Atlas Data Storage, compare le stockage de données à long terme à la peinture sur la tour Eiffel. Quand on a enfin fini de tout refaire, les premières couches appliquées commencent à rouiller, et le travail recommence.
« C’est la même chose avec le stockage de données sur le long terme », explique-t-il. « On se déplace constamment d’un ancien moyen de stockage vers un nouveau. » Il prédit que « ceux qui voudront sortir de ce cercle seront les premiers à se tourner vers l’ADN ».
DEUXIÈME ÉTAPE : ENCODER LES DONNÉES NUMÉRIQUES DANS L’ADN
En pratique, le stockage ADN implique plusieurs étapes : se décider sur un code, fabriquer l’ADN en passant par un procédé de synthèse et stocker les brins ainsi créés d’ADN. Les méthodes de stockage ADN incluent également des façons de catégoriser les brins stockés et de reconvertir les séquences nucléotidiques en informations lisibles par des ordinateurs ou accessibles par un autre moyen. Bien que les membres de l’industrie aient formé en 2020 la DNA Data Storage Alliance (l’Alliance du stockage de données ADN), en partie pour en déterminer les standards, les entreprises de ce secteur ont chacune leur propre manière d’approcher chacune de ces étapes.
Tout d’abord, afin de stocker les informations sous forme d’ADN, les scientifiques doivent déterminer comment les données seront traduites. L’ADN est un système de base quatre et les ordinateurs stockent et traitent les informations dans un système binaire (de base deux). Au lieu d’assigner un « 1 » ou un « 0 » à chaque nucléotide ADN (A, C, T, G), on pourrait assigner à chaque base une combinaison particulière. Ainsi, un A pourrait se traduire en binaire par « 00 », un C par « 01 », un T par « 10 » et un G par « 11 ». En théorie, cela veut dire que chaque nucléotide ADN est capable d’encoder jusqu’à deux bits uniques. En pratique, ce système n’est pas aussi efficace que cela. Certaines combinaisons de nucléotides d’ADN sont moins stables ou moins désirables et il existe différents protocoles chimiques pour transformer les bits en bases ADN.
Catalog, une entreprise de stockage ADN, a annoncé en 2022 avoir encodé huit des tragédies de William Shakespeare au sein d’un seul tube à essai. Pour ce faire, les scientifiques ont dû traduire près de 207 000 mots en brins de nucléotides en utilisant une classe d’enzymes que l’on appelle recombinases. Ils ont affirmé que leur machine à ADN, Shannon, a encodé les pièces dans des millions de nucléotides en quelques minutes.
« À chacun de ces mots on associe un tableau de bits aléatoire. Un tableau de bits est tout simplement une séquence de 1 et de 0 d’une longueur fixée », explique Swapnil Bhatia, directeur d’informatique ADN de Catalog, au cours d’une vidéo de l’entreprise. Le mot « rose » pourrait avoir un tableau de bits aléatoire de 1 000 nombres, et les entreprises auront plusieurs manières d’encoder des mots en séquences de 0 et de 1, et en nucléotides.
TROISIÈME ÉTAPE : LA SYNTHÈSE
La synthèse d’ADN est un autre point sur lequel divergent les entreprises dans leurs méthodes. Il s’agit de l’étape lors de laquelle sont créés les brins d’ADN du stockage des données. Catalog utilise le principe d’impression jet d’encre pour propulser des gouttelettes de fragments d’ADN préfabriqué. Dans chaque gouttelette ont lieu des centaines de milliers de réactions chimiques chaque seconde pour allonger les brins d’ADN. Au sein de la société Atlas Data Storage, l’assemblage des brins d’ADN synthétique a lieu sur des puces de semiconducteurs et des plaquettes de silicone.
« Une fois ces brins assemblés, nous les récoltons sur notre puce », explique Varun Mehta. « Ces brins d’ADN sont un peu comme des épis de maïs qui poussent dans un champ sur cette puce, et une fois qu’ils ont atteint la hauteur désirée, pour nous il s’agit du nombre de bases, nous les récoltons. »
QUATRIÈME ÉTAPE : STOCKER L’ADN
Le stockage et la préservation de ces brins synthétiques pose d’autres problèmes. Catalog et Atlas stockent les échantillons ADN dans des capsules de métal, où les brins ne sont ni exposés aux éléments ni dégradés. Pour reconvertir l’ADN à sa forme de bits, il est possible de la séquencer en ayant recours à la même technologie qui se cache derrière les tests de patrimoine génétique. Cette méthode ne peut être réalisée à l’infini. Au bout d’un moment, les échantillons devront être copiés à nouveau pour les restaurer. Afin de créer un stockage plus pérenne et plus accessible, certains groupes travaillent au développement de tags fluorescents. En éclairant les échantillons d’une lumière, les chercheurs peuvent obtenir des informations sur un échantillon donné en un coup d’œil, de la même manière que les métadonnées nous aident à organiser les fichiers sur un ordinateur sans avoir à les ouvrir.
Si les entreprises parviennent à surmonter ces défis, un système de stockage ADN ne prendrait qu’une fraction de l’espace occupé par les méthodes traditionnelles.
« La limite théorique est à couper le souffle », s’émerveille Varun Mehta. « On pourrait faire tenir cinquante pétaoctets de données dans un comprimé de Tylenol », c’est 50 000 fois le stockage d’un iPhone.
CINQUIÈME ÉTAPE : LA RÉCUPÉRATION DES DONNÉES
Stocker des informations dans un tel emballage physique soulève des questions d’ordre philosophique sur le principe du stockage. Un appareil de stockage pourrait-il avoir un autre but ? Les scientifiques ont théorisé et créé des démonstrations de faisabilité de tissus et d’objets du quotidien, comme des verres, qui contiennent des informations stockées dans de l’ADN. L’entreprise Catalog a son département consacré à l’« informatique ADN » afin de rechercher et d’analyser l’ADN synthétique sans avoir à convertir les informations encodées en bits. Il pourrait y avoir certains avantages à travailler avec des données sous forme d’ADN plutôt que de passer de l’une à l’autre, comme le fait un ordinateur ou un processeur. Travailler avec les données peut se faire dans plusieurs endroits à la fois, de façon simultanée.
L’ADN, en tant que base de toute vie, pourrait un jour devenir l’une de nos technologies les plus durables, selon Varun Mehta, parce qu’il ne viendra jamais à disparaître.
« Il risque de ne plus y avoir de lecteurs de DVD d’ici un millier d’années. Cela se voit ; il est difficile de trouver un lecteur de VHS de nos jours. Mais cela ne se produira jamais avec l’ADN parce qu’il est essentiel à notre santé », explique-t-il. « Cette technologie sera toujours à notre portée. »
Cet article a initialement paru sur le site nationalgeographic.com en langue anglaise.
