METAGENE-1: Metagenomisches Grundlagenmodell für die Überwachung von Pandemien
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
January 3, 2025
Autoren: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger
cs.AI
Zusammenfassung
Wir haben METAGENE-1, ein autoregressives Transformer-Modell mit 7 Milliarden Parametern, vortrainiert, das wir als metagenomisches Grundlagenmodell bezeichnen, auf einem neuartigen Korpus verschiedener metagenomischer DNA- und RNA-Sequenzen mit über 1,5 Billionen Basenpaaren. Dieser Datensatz stammt aus einer großen Sammlung von menschlichen Abwasserproben, die mit tiefen metagenomischen (Next-Generation) Sequenzierungsmethoden verarbeitet und sequenziert wurden. Im Gegensatz zu genomischen Modellen, die sich auf einzelne Genome oder kuratierte Sätze spezifischer Arten konzentrieren, zielt METAGENE-1 darauf ab, die vollständige Verteilung genomischer Informationen in diesem Abwasser zu erfassen, um bei Aufgaben im Zusammenhang mit der Pandemieüberwachung und der Pathogenerkennung zu helfen. Wir führen eine Byte-Pair-Encoding (BPE) Tokenisierung auf unserem Datensatz durch, die speziell für metagenomische Sequenzen zugeschnitten ist, und trainieren dann unser Modell vor. In diesem Papier beschreiben wir zunächst den Vortrainingsdatensatz, die Tokenisierungsstrategie und die Modellarchitektur, wobei wir die Überlegungen und Designentscheidungen hervorheben, die eine effektive Modellierung von metagenomischen Daten ermöglichen. Anschließend zeigen wir die Ergebnisse des Vortrainings dieses Modells auf unserem metagenomischen Datensatz und geben Einzelheiten zu unseren Verlusten, Systemmetriken und der Trainingsstabilität im Verlauf des Vortrainings. Schließlich demonstrieren wir die Leistung von METAGENE-1, das Spitzenresultate auf einem Satz genomischer Benchmarks und neuen Bewertungen zur Detektion von menschlichen Pathogenen und genomischer Sequenz-Embedding erzielt, was sein Potenzial für Anwendungen im öffentlichen Gesundheitswesen bei der Pandemieüberwachung, der Biosurveillance und der frühzeitigen Erkennung aufkommender Gesundheitsbedrohungen zeigt.
English
We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer
model, which we refer to as a metagenomic foundation model, on a novel corpus
of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base
pairs. This dataset is sourced from a large collection of human wastewater
samples, processed and sequenced using deep metagenomic (next-generation)
sequencing methods. Unlike genomic models that focus on individual genomes or
curated sets of specific species, the aim of METAGENE-1 is to capture the full
distribution of genomic information present within this wastewater, to aid in
tasks relevant to pandemic monitoring and pathogen detection. We carry out
byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic
sequences, and then pretrain our model. In this paper, we first detail the
pretraining dataset, tokenization strategy, and model architecture,
highlighting the considerations and design choices that enable the effective
modeling of metagenomic data. We then show results of pretraining this model on
our metagenomic dataset, providing details about our losses, system metrics,
and training stability over the course of pretraining. Finally, we demonstrate
the performance of METAGENE-1, which achieves state-of-the-art results on a set
of genomic benchmarks and new evaluations focused on human-pathogen detection
and genomic sequence embedding, showcasing its potential for public health
applications in pandemic monitoring, biosurveillance, and early detection of
emerging health threats.Summary
AI-Generated Summary