Des cassettes et de l’ADN pour faire face à l’explosion de nos données numériques

Recherche, industries et individus accumulent de plus en plus de données numériques. À tel point que les disques durs et autres régistereurs seront bientôt débordés. Pour pallier les manques à venir, un objet ancien évolue constantement : la cassette magnétique, en attendant une de pointe technology based on l’ADN.

Une photo Instagram, des videos sur un previouslyDec emails… every individual accumulates a considerable number of digital data, in constant increase with the new technologies at our disposal – videos in 4K, streaming on Netflix – all stock is not on a hard disk, but in the « cloud », the « cloud », parfois à des centaines de kilometers de soi. Mais ces données, bien que très familières, ne sont pas celles qui pèsent le plus lourd dans le « Big Data », les données massivees.

La recherche en est un contributeur bien plus important. Les expériences scientifiques humaines pessent lourd, très lourd : l’Organisation européenne pour la recherche nucléaire, at CERN, près de Genève, a accumulé, depuis sa création, plus de 100 pétaoctets (Po) d’images, de données brutes, d’informations, à conserver pour les générations futures qui voudront les étudier. 100 Po, c’est l’équivalent d’environ 102,400 disques durs de 1 teraoctet (To), en vente pour les particuliers…

La première image du trou noir M87* a necessité une immense quantité de données.
La première image du trou noir M87* a necessité une immense quantité de données. Event Horizon Telescope (EHT)/National Science Foundation/Handou

La premiere photo d’un trou noir a nécessité près de 5 Po, ce qui équivaut à 5,000 disques durs de 1 To. Les industries, comme Twitter, EDF, ou n’importe quelle entreprise un minimal digitisée, sont d’autres contributoreurs au Big Data.

Des limites physiques

Entre 2010 et 2020, le nombre d’informations contenues dans les données massivees a été multiplié par plus de 30, passant de 2 zettaoctets (2 millions de Po), à 60 zettaoctets. Et le rythme s’accelère. D’ici à 2025, l’humanité devrait produire 175 zettaoctets de données.

François Képès, cellular biologist, responsible between 2018 and 2021 of a prospective working group on the storage of digital data, explains: « In 2018, one millionth of the planet’s emerging lands were occupied by data centers. À ce rythme exponentiel là, en 2060, toutes les terres émergées seront recurvees de centers de données. »

Construction of a Facebook data center on October 5, 2021 at Eagle Mountain, Utah.
Construction of a Facebook data center on October 5, 2021 at Eagle Mountain, Utah. Getty Images via AFP – GEORGE FREY

However, in 70 years, the researchers have not stopped reducing the size of the storage systems, passing from the diskette to the hard disk, to increase the capacity. Mais dans ses conclusions, le rapport du groupe de travail publié en 2020 rappelle que la loi de Moore sur les semi-conducteurs s’applique aussi aux systèmes de stockages électronique et magnetic. « Il n’est pas possible de miniaturiser et d’optimiser indefiniment. Il y avait un doubling des capaciés et une division par deux du prix, tous les deux ans, pendant severales deciennes, mais cette optimisation est en ralentissement. He est en train d’attainer certaines limites physiques dures et l’optimisation qu’on peut encore en attendre est relativemente faible », says François Képès.

La cassette, une solution de secours

If the systèmes de stockage électronique reach their limits, the cassette, elle, continue de battre des records. Oui, il est bien question ici de la cassette, celle que vous mettiez dans votre vieux caméscope ou lecteur-cassette, dont les bands pouvoir partir dans tous les sens en cas de rembobinage défectueux. Mais les cassettes développees aujourd’hui n’ont rien à voir avec celles d’hier. Le dernier record de Fujifilm et IBM s’établit à 580 To soit l’équivalent de 76 million de cassettes audio des années 1990 (60 Mo/cassette). Ici une vidéo lors du record de 2017, qui était alors de 330 To.


Avec des bandes vingt fois plus fines qu’un cheveu et longues de plus d’un kilometer, la cassette loge dans la paume d’une main, et a encore quelques années devant elle. Mark Lantz, chercheur spécialisé dans la bande magnétique à IBM, declares à ce propos : « The whole shows the possibility of pursuing the mission à l’échelle de la technology des bands, essentially à des rates historique de doubling de la capacité des cartouches tous les deux années, pendant au moins les prochaines années. »

The next ten years… et après? En mettant en avant cette temporalité, Mark Lantz, comme de nombreux ingénieurs travailant dans le stockage, montre qu’il a bien conscience des limites du stockage électronique et magnétique. Tous deux consumption des ressources enormes, en énergie et en place.

Mark Lantz, scientifique à IBM, tient une cassette de plusieurs centaines de To dans sa main.
Mark Lantz, scientifique à IBM, tient une cassette de plusieurs centaines de To dans sa main. © Photo courtesy of IBM Research

La cassette magnétique a toutefois cet advantage d’être moins gourmande en électronique : un seul lecteur peut lire plusieurs cassettes, là où chaque disque dur embarque son propre système de lecture. De plus, une cassette dure des dizaines d’années contrairement à un disque dur, et est plus économe en énergie.

Malgré tout, une cassette, aussi puissante soit-elle, prend encore trop d’espace physique et ne saura contenir la taille des données massivees à venir. Il faut donc passer à la vitesse supérieure. Et c’est ce qu’a cherché à faire le groupe de travail de François Képès. « Nous avons logically considered alternatives comme la gravure sur verre, sur cristal ou le stockage sur des polymers comme l’ADN. Il nous a semblé probable que la seule technology qui pouvait être développée à temps et qui présentait des factors d’amélioration suffistantes, était le stockage sur polymer », sums up le chercheur.

En attendant l’ADN

L’ADN? Pas de panic : il n’est pas question de stocker des informations dans des êtres vivants, ou d’en modifier directement chez quelqu’un. Certes, il a été imaginé de le faire dans des bacteria ou des spores, mais ce n’est plus la piste principale.

ADN is a large chain of molecules that contain instructions for the reproduction and development of living things. Ici, c’est le terme « instruction » qui est intéressant. L’ADN, c’est une chaîne de quatre monomères, les « barres » qui relient les deux helices : A, C, G et T. La suite de ces monomères (AAGTTCCGATAT, par exemple) donne l’information, exactement comme… le système binaire, based on 1 et 0, à l’origine de tout système informatique.

DNA sequencing is composed of four different monomers: A, C, T, G.
DNA sequencing is composed of four different monomers: A, C, T, G. Getty Images – alanphillips

D’abord, il faut determinaire quelle succession de monomère on souhaite aligner, pour encoder le fichier numérique. Imaginons que A vaut 0 0, C vaut 0 1, G vaut 1 1, et T vaut 1 0. Prenons un exemple totalement factice. Si l’on veut stocker une photo, encodée 01 11, cela significareit que l’ordinateur doit « traduire » le 01 11 en CG. C’est l’encoding, he code le fichier. Ensuite, il faut écrire « chimiquement » CG dans l’ADN, puis stocker celui-ci pour le ressortir quand on en a besoin.

Au moment de la lecture, le logiciel va traduire la suite de letters en code binaire, constituant ainsi la photo à l’écran. Pour résumer, il ya donc cinq étapes : encoding, écriture, stockage, lecture, decodage.

Mais pourquoi stocker nos informations sur de l’ADN ? Pour le nombre d’informations que l’on peut y encoder (la densità informationnelle), sa sobriété énergétique et sa durability. Pas besoin de refroidir l’ADN, contrairement aux centers de données : il se conserve à température ambiante… jusqu’à 52,000 ans, si l’on utilise la technique d’encapsulation de la société française Imagene.


Chacune de ses capsules peut contenir jusqu’à 0.8 g d’ADN, soit 1.4 Exaoctet de données. Pour rappel, un exaoctet represents un million de disques durs de 1 To. 0.8 g d’ADN contiendrait ainsi autant d’informations que 150 tonnes de disques durs! Pour stocker les 175 Zettaoctets du Big Data de 2025, il faudrait seulement 175 kilos d’ADN. L’agence DARPA américaine considers que l’ADN potrait permettre de viser par mille la consommation d’énergie de nos données.

A development potential?

L’atout principal de l’ADN, c’est qu’on le connaît très bien, rappelle François Képès : « Le biomédical a entrainment le développement d’une technology ADN qui est déjà très advancede. This means that toutes les méthodes necessaires pour le travail de stockage et d’archivage de données numériques a déjà été fait, maintenant, cela ne veut pas dire quil est à niveau du point de vue commercial, pas du tout. »

Nevertheless, la technology progresse très vite. « The cost to sequence a human genome [la lecture, NDLR] and extraordinarily baisse. He was worth 3 billion dollars in 2003, he is worth 500 today », s’enthusiasme le chercheur. But il reste des limites : 500 dollars pour une lecture de l’ADN à la vitesse de 2022, c’est encore 1,000 fois trop cher et 1,000 fois trop lent, par rapport à un disque dur. Pour l’écriture, c’est même 100 million de fois trop lent et trop cher.

« Il ya des gens qui nous ont dit de revenir en parler à la fin du siècle. Pas du tout! Les technologies liéantes à l’ADN progressent d’un facteur deux tous les six mois environ : quatre fois plus rapidement que l’électronique entre 1976 et 2011. À ce rythme, le facteur 1000 de la lecture sera avalé d’ici à cinq ans, autour de 2025. Et les 100 millions pour l’écriture, lui, autour de 2035! »

Déjà, certaines applications sont possibles pour l’ADN, en attendant 2035. Toutes les données n’ont pas besoin d’être lues ou écrites règumente. Ainsi, l’INA, organism français chargé d’archiver les productions audiovisuelles, accumulate chaque année 20 Po supplémentaires de données. Toutes ces données n’ont pas besoin d’être ressorties rapidement, d’où l’intérêt de les encoder dans l’ADN. De la même manière, le sector bancaire, qui doit conserver les données bancaires de ses clients parfois des dizaines d’années, pourrait utiliser cette nouvelle technologie de stockage.

Preuve que l’enjeu est enorme, le DARPA américain a investi des centaines de millions d’euros dans les technologies ADN. La France, elle, commence à s’y mettre, notably grâce au groupe de travail de François Képès, avec an investment of 20 million euros du gouvernement otroyé à la recherche sur le stockage ADN.

À lire aussi : Face à l’immensité du Big Data, les strategies des journalistes d’investigation

.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top