МЕТАГЕН-1: Метагеномная модель основы для мониторинга пандемий
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
January 3, 2025
Авторы: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger
cs.AI
Аннотация
Мы предварительно обучаем модель METAGENE-1, авторегрессивный трансформер с 7 миллиардами параметров, который мы называем метагеномной базовой моделью, на новом корпусе разнообразных метагеномных ДНК и РНК последовательностей, составляющих более 1,5 триллиона пар оснований. Этот набор данных взят из большой коллекции образцов человеческих сточных вод, обработанных и просеквенированных с использованием глубоких метагеномных (нового поколения) методов секвенирования. В отличие от геномных моделей, сосредотачивающихся на отдельных геномах или отобранных наборах конкретных видов, цель METAGENE-1 заключается в захвате полного распределения геномной информации, присутствующей в этих сточных водах, для помощи в задачах, связанных с мониторингом пандемий и обнаружением патогенов. Мы проводим токенизацию методом кодирования байт-пар (BPE) на нашем наборе данных, настроенную для метагеномных последовательностей, а затем предварительно обучаем нашу модель. В данной статье мы подробно описываем набор данных для предварительного обучения, стратегию токенизации и архитектуру модели, выделяя соображения и выборы дизайна, обеспечивающие эффективное моделирование метагеномных данных. Затем мы показываем результаты предварительного обучения этой модели на нашем метагеномном наборе данных, предоставляя детали наших потерь, метрик системы и стабильности обучения на протяжении предварительного обучения. Наконец, мы демонстрируем производительность METAGENE-1, достигающую передовых результатов на наборе геномных бенчмарков и новых оценок, сосредоточенных на обнаружении человека-патогена и встраивании геномных последовательностей, показывая ее потенциал для общественного здравоохранения в мониторинге пандемий, биосуравейлансе и раннем обнаружении новых угроз здоровью.
English
We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer
model, which we refer to as a metagenomic foundation model, on a novel corpus
of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base
pairs. This dataset is sourced from a large collection of human wastewater
samples, processed and sequenced using deep metagenomic (next-generation)
sequencing methods. Unlike genomic models that focus on individual genomes or
curated sets of specific species, the aim of METAGENE-1 is to capture the full
distribution of genomic information present within this wastewater, to aid in
tasks relevant to pandemic monitoring and pathogen detection. We carry out
byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic
sequences, and then pretrain our model. In this paper, we first detail the
pretraining dataset, tokenization strategy, and model architecture,
highlighting the considerations and design choices that enable the effective
modeling of metagenomic data. We then show results of pretraining this model on
our metagenomic dataset, providing details about our losses, system metrics,
and training stability over the course of pretraining. Finally, we demonstrate
the performance of METAGENE-1, which achieves state-of-the-art results on a set
of genomic benchmarks and new evaluations focused on human-pathogen detection
and genomic sequence embedding, showcasing its potential for public health
applications in pandemic monitoring, biosurveillance, and early detection of
emerging health threats.Summary
AI-Generated Summary