METAGENO-1: Modelo Fundacional Metagenómico para el Monitoreo de Pandemias
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
January 3, 2025
Autores: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger
cs.AI
Resumen
Preentrenamos METAGENE-1, un modelo autoregresivo transformer de 7 mil millones de parámetros, al que nos referimos como un modelo base metagenómico, en un corpus novedoso de diversas secuencias de ADN y ARN metagenómicas que comprenden más de 1.5 billones de pares de bases. Este conjunto de datos se obtiene de una amplia colección de muestras de aguas residuales humanas, procesadas y secuenciadas utilizando métodos de secuenciación metagenómica profunda (de próxima generación). A diferencia de los modelos genómicos que se centran en genomas individuales o conjuntos curados de especies específicas, el objetivo de METAGENE-1 es capturar la distribución completa de información genómica presente en estas aguas residuales, para ayudar en tareas relevantes para el monitoreo de pandemias y la detección de patógenos. Realizamos la tokenización de codificación de pares de bytes (BPE) en nuestro conjunto de datos, adaptada para secuencias metagenómicas, y luego preentrenamos nuestro modelo. En este artículo, detallamos primero el conjunto de datos de preentrenamiento, la estrategia de tokenización y la arquitectura del modelo, resaltando las consideraciones y decisiones de diseño que permiten el modelado efectivo de datos metagenómicos. Luego mostramos los resultados de preentrenar este modelo en nuestro conjunto de datos metagenómico, proporcionando detalles sobre nuestras pérdidas, métricas del sistema y estabilidad del entrenamiento a lo largo del preentrenamiento. Finalmente, demostramos el rendimiento de METAGENE-1, que logra resultados de vanguardia en un conjunto de pruebas genómicas y nuevas evaluaciones centradas en la detección de patógenos humanos y la incrustación de secuencias genómicas, mostrando su potencial para aplicaciones de salud pública en el monitoreo de pandemias, la biovigilancia y la detección temprana de amenazas emergentes para la salud.
English
We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer
model, which we refer to as a metagenomic foundation model, on a novel corpus
of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base
pairs. This dataset is sourced from a large collection of human wastewater
samples, processed and sequenced using deep metagenomic (next-generation)
sequencing methods. Unlike genomic models that focus on individual genomes or
curated sets of specific species, the aim of METAGENE-1 is to capture the full
distribution of genomic information present within this wastewater, to aid in
tasks relevant to pandemic monitoring and pathogen detection. We carry out
byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic
sequences, and then pretrain our model. In this paper, we first detail the
pretraining dataset, tokenization strategy, and model architecture,
highlighting the considerations and design choices that enable the effective
modeling of metagenomic data. We then show results of pretraining this model on
our metagenomic dataset, providing details about our losses, system metrics,
and training stability over the course of pretraining. Finally, we demonstrate
the performance of METAGENE-1, which achieves state-of-the-art results on a set
of genomic benchmarks and new evaluations focused on human-pathogen detection
and genomic sequence embedding, showcasing its potential for public health
applications in pandemic monitoring, biosurveillance, and early detection of
emerging health threats.Summary
AI-Generated Summary