HyenaDNA: Modelagem de Sequências Genômicas de Longo Alcance com Resolução de Nucleotídeo Único
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
June 27, 2023
Autores: Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris Ré
cs.AI
Resumo
As sequências genômicas (DNA) codificam uma enorme quantidade de informações para a regulação gênica e a síntese de proteínas. Semelhante aos modelos de linguagem natural, pesquisadores propuseram modelos de base em genômica para aprender características generalizáveis a partir de dados genômicos não rotulados, que podem então ser ajustados para tarefas subsequentes, como a identificação de elementos regulatórios. Devido ao escalonamento quadrático da atenção, modelos genômicos baseados em Transformers anteriores utilizaram de 512 a 4 mil tokens como contexto (<0,001% do genoma humano), limitando significativamente a modelagem de interações de longo alcance no DNA. Além disso, esses métodos dependem de tokenizadores para agregar unidades significativas de DNA, perdendo a resolução de nucleotídeos individuais, onde variações genéticas sutis podem alterar completamente a função das proteínas por meio de polimorfismos de nucleotídeo único (SNPs). Recentemente, Hyena, um modelo de linguagem grande baseado em convoluções implícitas, demonstrou igualar a atenção em qualidade, permitindo contextos mais longos e menor complexidade temporal. Aproveitando as novas capacidades de longo alcance do Hyena, apresentamos o HyenaDNA, um modelo de base genômico pré-treinado no genoma de referência humana com comprimentos de contexto de até 1 milhão de tokens no nível de nucleotídeo único, um aumento de até 500 vezes em relação aos modelos anteriores baseados em atenção densa. O HyenaDNA escala sub-quadraticamente no comprimento da sequência (treinando até 160 vezes mais rápido que o Transformer), utiliza tokens de nucleotídeo único e tem contexto global completo em cada camada. Exploramos o que contextos mais longos permitem - incluindo o primeiro uso de aprendizado em contexto em genômica para adaptação simples a novas tarefas sem atualizar os pesos do modelo pré-treinado. Em benchmarks ajustados do Nucleotide Transformer, o HyenaDNA alcança o estado da arte (SotA) em 12 de 17 conjuntos de dados usando um modelo com ordens de magnitude menos parâmetros e dados de pré-treinamento. No GenomicBenchmarks, o HyenaDNA supera o SotA em todos os 8 conjuntos de dados, em média, por +9 pontos de precisão.
English
Genomic (DNA) sequences encode an enormous amount of information for gene
regulation and protein synthesis. Similar to natural language models,
researchers have proposed foundation models in genomics to learn generalizable
features from unlabeled genome data that can then be fine-tuned for downstream
tasks such as identifying regulatory elements. Due to the quadratic scaling of
attention, previous Transformer-based genomic models have used 512 to 4k tokens
as context (<0.001% of the human genome), significantly limiting the modeling
of long-range interactions in DNA. In addition, these methods rely on
tokenizers to aggregate meaningful DNA units, losing single nucleotide
resolution where subtle genetic variations can completely alter protein
function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large
language model based on implicit convolutions was shown to match attention in
quality while allowing longer context lengths and lower time complexity.
Leveraging Hyenas new long-range capabilities, we present HyenaDNA, a genomic
foundation model pretrained on the human reference genome with context lengths
of up to 1 million tokens at the single nucleotide-level, an up to 500x
increase over previous dense attention-based models. HyenaDNA scales
sub-quadratically in sequence length (training up to 160x faster than
Transformer), uses single nucleotide tokens, and has full global context at
each layer. We explore what longer context enables - including the first use of
in-context learning in genomics for simple adaptation to novel tasks without
updating pretrained model weights. On fine-tuned benchmarks from the Nucleotide
Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 17 datasets
using a model with orders of magnitude less parameters and pretraining data. On
the GenomicBenchmarks, HyenaDNA surpasses SotA on all 8 datasets on average by
+9 accuracy points.