HyenaDNA: Modelagem de Sequências Genômicas de Longo Alcance com Resolução de Nucleotídeo Único

Resumo

As sequências genômicas (DNA) codificam uma enorme quantidade de informações para a regulação gênica e a síntese de proteínas. Semelhante aos modelos de linguagem natural, pesquisadores propuseram modelos de base em genômica para aprender características generalizáveis a partir de dados genômicos não rotulados, que podem então ser ajustados para tarefas subsequentes, como a identificação de elementos regulatórios. Devido ao escalonamento quadrático da atenção, modelos genômicos baseados em Transformers anteriores utilizaram de 512 a 4 mil tokens como contexto (<0,001% do genoma humano), limitando significativamente a modelagem de interações de longo alcance no DNA. Além disso, esses métodos dependem de tokenizadores para agregar unidades significativas de DNA, perdendo a resolução de nucleotídeos individuais, onde variações genéticas sutis podem alterar completamente a função das proteínas por meio de polimorfismos de nucleotídeo único (SNPs). Recentemente, Hyena, um modelo de linguagem grande baseado em convoluções implícitas, demonstrou igualar a atenção em qualidade, permitindo contextos mais longos e menor complexidade temporal. Aproveitando as novas capacidades de longo alcance do Hyena, apresentamos o HyenaDNA, um modelo de base genômico pré-treinado no genoma de referência humana com comprimentos de contexto de até 1 milhão de tokens no nível de nucleotídeo único, um aumento de até 500 vezes em relação aos modelos anteriores baseados em atenção densa. O HyenaDNA escala sub-quadraticamente no comprimento da sequência (treinando até 160 vezes mais rápido que o Transformer), utiliza tokens de nucleotídeo único e tem contexto global completo em cada camada. Exploramos o que contextos mais longos permitem - incluindo o primeiro uso de aprendizado em contexto em genômica para adaptação simples a novas tarefas sem atualizar os pesos do modelo pré-treinado. Em benchmarks ajustados do Nucleotide Transformer, o HyenaDNA alcança o estado da arte (SotA) em 12 de 17 conjuntos de dados usando um modelo com ordens de magnitude menos parâmetros e dados de pré-treinamento. No GenomicBenchmarks, o HyenaDNA supera o SotA em todos os 8 conjuntos de dados, em média, por +9 pontos de precisão.

English

Genomic (DNA) sequences encode an enormous amount of information for gene regulation and protein synthesis. Similar to natural language models, researchers have proposed foundation models in genomics to learn generalizable features from unlabeled genome data that can then be fine-tuned for downstream tasks such as identifying regulatory elements. Due to the quadratic scaling of attention, previous Transformer-based genomic models have used 512 to 4k tokens as context (<0.001% of the human genome), significantly limiting the modeling of long-range interactions in DNA. In addition, these methods rely on tokenizers to aggregate meaningful DNA units, losing single nucleotide resolution where subtle genetic variations can completely alter protein function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large language model based on implicit convolutions was shown to match attention in quality while allowing longer context lengths and lower time complexity. Leveraging Hyenas new long-range capabilities, we present HyenaDNA, a genomic foundation model pretrained on the human reference genome with context lengths of up to 1 million tokens at the single nucleotide-level, an up to 500x increase over previous dense attention-based models. HyenaDNA scales sub-quadratically in sequence length (training up to 160x faster than Transformer), uses single nucleotide tokens, and has full global context at each layer. We explore what longer context enables - including the first use of in-context learning in genomics for simple adaptation to novel tasks without updating pretrained model weights. On fine-tuned benchmarks from the Nucleotide Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 17 datasets using a model with orders of magnitude less parameters and pretraining data. On the GenomicBenchmarks, HyenaDNA surpasses SotA on all 8 datasets on average by +9 accuracy points.

HyenaDNA: Modelagem de Sequências Genômicas de Longo Alcance com Resolução de Nucleotídeo Único

HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

Resumo

Support