HyenaDNA: Моделирование длинных геномных последовательностей с разрешением на уровне отдельных нуклеотидов

Аннотация

Геномные (ДНК) последовательности содержат огромный объем информации, регулирующей экспрессию генов и синтез белков. По аналогии с моделями обработки естественного языка, исследователи предложили использовать базовые модели в геномике для извлечения обобщаемых признаков из немаркированных геномных данных, которые затем могут быть дообучены для решения таких задач, как идентификация регуляторных элементов. Из-за квадратичного масштабирования механизма внимания предыдущие модели на основе Transformer использовали контекст от 512 до 4 тысяч токенов (<0,001% человеческого генома), что существенно ограничивало моделирование дальнодействующих взаимодействий в ДНК. Кроме того, эти методы полагаются на токенизаторы для агрегации значимых единиц ДНК, теряя разрешение на уровне отдельных нуклеотидов, где даже незначительные генетические вариации, такие как однонуклеотидные полиморфизмы (SNP), могут полностью изменить функцию белка. Недавно была представлена Hyena, большая языковая модель, основанная на неявных свертках, которая по качеству сопоставима с механизмом внимания, но позволяет работать с более длинными контекстами и имеет меньшую временную сложность. Используя новые возможности Hyena для работы с длинными контекстами, мы представляем HyenaDNA — базовую геномную модель, предобученную на референсном геноме человека с длиной контекста до 1 миллиона токенов на уровне отдельных нуклеотидов, что в 500 раз превышает возможности предыдущих моделей, основанных на плотном механизме внимания. HyenaDNA масштабируется субквадратично по длине последовательности (обучение до 160 раз быстрее, чем Transformer), использует токены на уровне отдельных нуклеотидов и имеет полный глобальный контекст на каждом слое. Мы исследуем, какие возможности открывает более длинный контекст, включая первое применение обучения в контексте (in-context learning) в геномике для простой адаптации к новым задачам без обновления весов предобученной модели. На задачах дообучения, взятых из Nucleotide Transformer, HyenaDNA достигает наилучших результатов (state-of-the-art, SotA) на 12 из 17 наборов данных, используя модель с на порядки меньшим количеством параметров и данных для предобучения. На наборах данных GenomicBenchmarks HyenaDNA превосходит SotA на всех 8 наборах данных в среднем на +9 процентных пунктов по точности.

English

Genomic (DNA) sequences encode an enormous amount of information for gene regulation and protein synthesis. Similar to natural language models, researchers have proposed foundation models in genomics to learn generalizable features from unlabeled genome data that can then be fine-tuned for downstream tasks such as identifying regulatory elements. Due to the quadratic scaling of attention, previous Transformer-based genomic models have used 512 to 4k tokens as context (<0.001% of the human genome), significantly limiting the modeling of long-range interactions in DNA. In addition, these methods rely on tokenizers to aggregate meaningful DNA units, losing single nucleotide resolution where subtle genetic variations can completely alter protein function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large language model based on implicit convolutions was shown to match attention in quality while allowing longer context lengths and lower time complexity. Leveraging Hyenas new long-range capabilities, we present HyenaDNA, a genomic foundation model pretrained on the human reference genome with context lengths of up to 1 million tokens at the single nucleotide-level, an up to 500x increase over previous dense attention-based models. HyenaDNA scales sub-quadratically in sequence length (training up to 160x faster than Transformer), uses single nucleotide tokens, and has full global context at each layer. We explore what longer context enables - including the first use of in-context learning in genomics for simple adaptation to novel tasks without updating pretrained model weights. On fine-tuned benchmarks from the Nucleotide Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 17 datasets using a model with orders of magnitude less parameters and pretraining data. On the GenomicBenchmarks, HyenaDNA surpasses SotA on all 8 datasets on average by +9 accuracy points.

HyenaDNA: Моделирование длинных геномных последовательностей с разрешением на уровне отдельных нуклеотидов

HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

Аннотация

Support