METAGENE-1: Metagenomisch fundamentmodel voor pandemiebewaking
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
January 3, 2025
Auteurs: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger
cs.AI
Samenvatting
We pretrainen METAGENE-1, een 7 miljard parameters tellend autoregressief transformermodel, dat we een metagenomisch foundation model noemen, op een nieuw corpus van diverse metagenomische DNA- en RNA-sequenties bestaande uit meer dan 1,5 biljoen basenparen. Deze dataset is afkomstig van een grote verzameling menselijke afvalwatermonsters, verwerkt en gesequenced met behulp van diepe metagenomische (next-generation) sequentiemethoden. In tegenstelling tot genomische modellen die zich richten op individuele genomen of samengestelde sets van specifieke soorten, is het doel van METAGENE-1 om de volledige distributie van genomische informatie vast te leggen die aanwezig is in dit afvalwater, om te helpen bij taken die relevant zijn voor pandemiebewaking en pathogeen detectie. We voeren byte-pair encoding (BPE) tokenisatie uit op onze dataset, afgestemd op metagenomische sequenties, en vervolgens pretrainen we ons model. In dit artikel beschrijven we eerst de pretraining dataset, tokenisatiestrategie en modelarchitectuur, waarbij we de overwegingen en ontwerpkeuzes benadrukken die het effectieve modelleren van metagenomische data mogelijk maken. Vervolgens tonen we de resultaten van het pretrainen van dit model op onze metagenomische dataset, waarbij we details verstrekken over onze verliezen, systeemmetrieken en trainingsstabiliteit gedurende het pretrainen. Ten slotte demonstreren we de prestaties van METAGENE-1, die state-of-the-art resultaten behaalt op een reeks genomische benchmarks en nieuwe evaluaties gericht op mens-pathogeen detectie en genomische sequentie-embedding, waarbij we zijn potentieel voor volksgezondheidstoepassingen in pandemiebewaking, biosurveillance en vroegtijdige detectie van opkomende gezondheidsbedreigingen laten zien.
English
We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer
model, which we refer to as a metagenomic foundation model, on a novel corpus
of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base
pairs. This dataset is sourced from a large collection of human wastewater
samples, processed and sequenced using deep metagenomic (next-generation)
sequencing methods. Unlike genomic models that focus on individual genomes or
curated sets of specific species, the aim of METAGENE-1 is to capture the full
distribution of genomic information present within this wastewater, to aid in
tasks relevant to pandemic monitoring and pathogen detection. We carry out
byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic
sequences, and then pretrain our model. In this paper, we first detail the
pretraining dataset, tokenization strategy, and model architecture,
highlighting the considerations and design choices that enable the effective
modeling of metagenomic data. We then show results of pretraining this model on
our metagenomic dataset, providing details about our losses, system metrics,
and training stability over the course of pretraining. Finally, we demonstrate
the performance of METAGENE-1, which achieves state-of-the-art results on a set
of genomic benchmarks and new evaluations focused on human-pathogen detection
and genomic sequence embedding, showcasing its potential for public health
applications in pandemic monitoring, biosurveillance, and early detection of
emerging health threats.Summary
AI-Generated Summary