METAGENE-1 : Modèle Fondation Métagénomique pour la Surveillance des Pandémies
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
January 3, 2025
Auteurs: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger
cs.AI
Résumé
Nous préentraînons METAGENE-1, un modèle autoregressif transformer de 7 milliards de paramètres, que nous désignons comme un modèle fondamental métagénomique, sur un corpus novateur de séquences d'ADN et d'ARN métagénomiques diverses comprenant plus de 1,5 trillion de paires de bases. Ce jeu de données provient d'une large collection d'échantillons d'eaux usées humaines, traités et séquencés à l'aide de méthodes de séquençage métagénomique en profondeur (next-generation). Contrairement aux modèles génomiques qui se concentrent sur des génomes individuels ou des ensembles spécifiques d'espèces, l'objectif de METAGENE-1 est de capturer la distribution complète des informations génomiques présentes dans ces eaux usées, afin d'aider dans des tâches liées à la surveillance des pandémies et à la détection des agents pathogènes. Nous réalisons une tokenisation par codage binaire de paires (BPE) sur notre jeu de données, adaptée aux séquences métagénomiques, puis préentraînons notre modèle. Dans cet article, nous détaillons d'abord le jeu de données de préentraînement, la stratégie de tokenisation et l'architecture du modèle, mettant en lumière les considérations et les choix de conception permettant la modélisation efficace des données métagénomiques. Nous présentons ensuite les résultats de la préentraînement de ce modèle sur notre jeu de données métagénomiques, en fournissant des détails sur nos pertes, les métriques système et la stabilité de l'entraînement tout au long du préentraînement. Enfin, nous démontrons les performances de METAGENE-1, qui atteint des résultats de pointe sur un ensemble de références génomiques et de nouvelles évaluations axées sur la détection des agents pathogènes humains et l'encastrement de séquences génomiques, mettant en valeur son potentiel pour les applications de santé publique dans la surveillance des pandémies, la biosurveillance et la détection précoce des menaces sanitaires émergentes.
English
We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer
model, which we refer to as a metagenomic foundation model, on a novel corpus
of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base
pairs. This dataset is sourced from a large collection of human wastewater
samples, processed and sequenced using deep metagenomic (next-generation)
sequencing methods. Unlike genomic models that focus on individual genomes or
curated sets of specific species, the aim of METAGENE-1 is to capture the full
distribution of genomic information present within this wastewater, to aid in
tasks relevant to pandemic monitoring and pathogen detection. We carry out
byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic
sequences, and then pretrain our model. In this paper, we first detail the
pretraining dataset, tokenization strategy, and model architecture,
highlighting the considerations and design choices that enable the effective
modeling of metagenomic data. We then show results of pretraining this model on
our metagenomic dataset, providing details about our losses, system metrics,
and training stability over the course of pretraining. Finally, we demonstrate
the performance of METAGENE-1, which achieves state-of-the-art results on a set
of genomic benchmarks and new evaluations focused on human-pathogen detection
and genomic sequence embedding, showcasing its potential for public health
applications in pandemic monitoring, biosurveillance, and early detection of
emerging health threats.