МЕТАГЕН-1: Метагеномная модель основы для мониторинга пандемий

Аннотация

Мы предварительно обучаем модель METAGENE-1, авторегрессивный трансформер с 7 миллиардами параметров, который мы называем метагеномной базовой моделью, на новом корпусе разнообразных метагеномных ДНК и РНК последовательностей, составляющих более 1,5 триллиона пар оснований. Этот набор данных взят из большой коллекции образцов человеческих сточных вод, обработанных и просеквенированных с использованием глубоких метагеномных (нового поколения) методов секвенирования. В отличие от геномных моделей, сосредотачивающихся на отдельных геномах или отобранных наборах конкретных видов, цель METAGENE-1 заключается в захвате полного распределения геномной информации, присутствующей в этих сточных водах, для помощи в задачах, связанных с мониторингом пандемий и обнаружением патогенов. Мы проводим токенизацию методом кодирования байт-пар (BPE) на нашем наборе данных, настроенную для метагеномных последовательностей, а затем предварительно обучаем нашу модель. В данной статье мы подробно описываем набор данных для предварительного обучения, стратегию токенизации и архитектуру модели, выделяя соображения и выборы дизайна, обеспечивающие эффективное моделирование метагеномных данных. Затем мы показываем результаты предварительного обучения этой модели на нашем метагеномном наборе данных, предоставляя детали наших потерь, метрик системы и стабильности обучения на протяжении предварительного обучения. Наконец, мы демонстрируем производительность METAGENE-1, достигающую передовых результатов на наборе геномных бенчмарков и новых оценок, сосредоточенных на обнаружении человека-патогена и встраивании геномных последовательностей, показывая ее потенциал для общественного здравоохранения в мониторинге пандемий, биосуравейлансе и раннем обнаружении новых угроз здоровью.

English

We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer model, which we refer to as a metagenomic foundation model, on a novel corpus of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base pairs. This dataset is sourced from a large collection of human wastewater samples, processed and sequenced using deep metagenomic (next-generation) sequencing methods. Unlike genomic models that focus on individual genomes or curated sets of specific species, the aim of METAGENE-1 is to capture the full distribution of genomic information present within this wastewater, to aid in tasks relevant to pandemic monitoring and pathogen detection. We carry out byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic sequences, and then pretrain our model. In this paper, we first detail the pretraining dataset, tokenization strategy, and model architecture, highlighting the considerations and design choices that enable the effective modeling of metagenomic data. We then show results of pretraining this model on our metagenomic dataset, providing details about our losses, system metrics, and training stability over the course of pretraining. Finally, we demonstrate the performance of METAGENE-1, which achieves state-of-the-art results on a set of genomic benchmarks and new evaluations focused on human-pathogen detection and genomic sequence embedding, showcasing its potential for public health applications in pandemic monitoring, biosurveillance, and early detection of emerging health threats.

МЕТАГЕН-1: Метагеномная модель основы для мониторинга пандемий

METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Аннотация

Support