HyenaDNA: Моделирование длинных геномных последовательностей с разрешением на уровне отдельных нуклеотидов
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
June 27, 2023
Авторы: Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris Ré
cs.AI
Аннотация
Геномные (ДНК) последовательности содержат огромный объем информации, регулирующей экспрессию генов и синтез белков. По аналогии с моделями обработки естественного языка, исследователи предложили использовать базовые модели в геномике для извлечения обобщаемых признаков из немаркированных геномных данных, которые затем могут быть дообучены для решения таких задач, как идентификация регуляторных элементов. Из-за квадратичного масштабирования механизма внимания предыдущие модели на основе Transformer использовали контекст от 512 до 4 тысяч токенов (<0,001% человеческого генома), что существенно ограничивало моделирование дальнодействующих взаимодействий в ДНК. Кроме того, эти методы полагаются на токенизаторы для агрегации значимых единиц ДНК, теряя разрешение на уровне отдельных нуклеотидов, где даже незначительные генетические вариации, такие как однонуклеотидные полиморфизмы (SNP), могут полностью изменить функцию белка. Недавно была представлена Hyena, большая языковая модель, основанная на неявных свертках, которая по качеству сопоставима с механизмом внимания, но позволяет работать с более длинными контекстами и имеет меньшую временную сложность. Используя новые возможности Hyena для работы с длинными контекстами, мы представляем HyenaDNA — базовую геномную модель, предобученную на референсном геноме человека с длиной контекста до 1 миллиона токенов на уровне отдельных нуклеотидов, что в 500 раз превышает возможности предыдущих моделей, основанных на плотном механизме внимания. HyenaDNA масштабируется субквадратично по длине последовательности (обучение до 160 раз быстрее, чем Transformer), использует токены на уровне отдельных нуклеотидов и имеет полный глобальный контекст на каждом слое. Мы исследуем, какие возможности открывает более длинный контекст, включая первое применение обучения в контексте (in-context learning) в геномике для простой адаптации к новым задачам без обновления весов предобученной модели. На задачах дообучения, взятых из Nucleotide Transformer, HyenaDNA достигает наилучших результатов (state-of-the-art, SotA) на 12 из 17 наборов данных, используя модель с на порядки меньшим количеством параметров и данных для предобучения. На наборах данных GenomicBenchmarks HyenaDNA превосходит SotA на всех 8 наборах данных в среднем на +9 процентных пунктов по точности.
English
Genomic (DNA) sequences encode an enormous amount of information for gene
regulation and protein synthesis. Similar to natural language models,
researchers have proposed foundation models in genomics to learn generalizable
features from unlabeled genome data that can then be fine-tuned for downstream
tasks such as identifying regulatory elements. Due to the quadratic scaling of
attention, previous Transformer-based genomic models have used 512 to 4k tokens
as context (<0.001% of the human genome), significantly limiting the modeling
of long-range interactions in DNA. In addition, these methods rely on
tokenizers to aggregate meaningful DNA units, losing single nucleotide
resolution where subtle genetic variations can completely alter protein
function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large
language model based on implicit convolutions was shown to match attention in
quality while allowing longer context lengths and lower time complexity.
Leveraging Hyenas new long-range capabilities, we present HyenaDNA, a genomic
foundation model pretrained on the human reference genome with context lengths
of up to 1 million tokens at the single nucleotide-level, an up to 500x
increase over previous dense attention-based models. HyenaDNA scales
sub-quadratically in sequence length (training up to 160x faster than
Transformer), uses single nucleotide tokens, and has full global context at
each layer. We explore what longer context enables - including the first use of
in-context learning in genomics for simple adaptation to novel tasks without
updating pretrained model weights. On fine-tuned benchmarks from the Nucleotide
Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 17 datasets
using a model with orders of magnitude less parameters and pretraining data. On
the GenomicBenchmarks, HyenaDNA surpasses SotA on all 8 datasets on average by
+9 accuracy points.