ChatPaper.aiChatPaper

HyenaDNA: Modelado de Secuencias Genómicas de Largo Alcance con Resolución de Nucleótido Individual

HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

June 27, 2023
Autores: Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris Ré
cs.AI

Resumen

Las secuencias genómicas (ADN) codifican una enorme cantidad de información para la regulación génica y la síntesis de proteínas. Similar a los modelos de lenguaje natural, los investigadores han propuesto modelos fundacionales en genómica para aprender características generalizables a partir de datos genómicos no etiquetados, que luego pueden ajustarse para tareas posteriores, como la identificación de elementos reguladores. Debido al escalamiento cuadrático de la atención, los modelos genómicos basados en Transformers anteriores han utilizado de 512 a 4k tokens como contexto (<0.001% del genoma humano), limitando significativamente el modelado de interacciones de largo alcance en el ADN. Además, estos métodos dependen de tokenizadores para agregar unidades significativas de ADN, perdiendo la resolución de nucleótidos individuales, donde variaciones genéticas sutiles pueden alterar completamente la función de las proteínas a través de polimorfismos de un solo nucleótido (SNPs). Recientemente, Hyena, un modelo de lenguaje grande basado en convoluciones implícitas, demostró igualar la calidad de la atención mientras permite longitudes de contexto más largas y una menor complejidad temporal. Aprovechando las nuevas capacidades de largo alcance de Hyena, presentamos HyenaDNA, un modelo fundacional genómico preentrenado en el genoma de referencia humano con longitudes de contexto de hasta 1 millón de tokens a nivel de nucleótido individual, un aumento de hasta 500x sobre los modelos anteriores basados en atención densa. HyenaDNA escala subcuadráticamente en longitud de secuencia (entrenándose hasta 160x más rápido que un Transformer), utiliza tokens de nucleótidos individuales y tiene contexto global completo en cada capa. Exploramos lo que permite un contexto más largo, incluyendo el primer uso de aprendizaje en contexto en genómica para la adaptación simple a nuevas tareas sin actualizar los pesos del modelo preentrenado. En los puntos de referencia ajustados del Nucleotide Transformer, HyenaDNA alcanza el estado del arte (SotA) en 12 de 17 conjuntos de datos utilizando un modelo con órdenes de magnitud menos de parámetros y datos de preentrenamiento. En GenomicBenchmarks, HyenaDNA supera el SotA en los 8 conjuntos de datos en promedio por +9 puntos de precisión.
English
Genomic (DNA) sequences encode an enormous amount of information for gene regulation and protein synthesis. Similar to natural language models, researchers have proposed foundation models in genomics to learn generalizable features from unlabeled genome data that can then be fine-tuned for downstream tasks such as identifying regulatory elements. Due to the quadratic scaling of attention, previous Transformer-based genomic models have used 512 to 4k tokens as context (<0.001% of the human genome), significantly limiting the modeling of long-range interactions in DNA. In addition, these methods rely on tokenizers to aggregate meaningful DNA units, losing single nucleotide resolution where subtle genetic variations can completely alter protein function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large language model based on implicit convolutions was shown to match attention in quality while allowing longer context lengths and lower time complexity. Leveraging Hyenas new long-range capabilities, we present HyenaDNA, a genomic foundation model pretrained on the human reference genome with context lengths of up to 1 million tokens at the single nucleotide-level, an up to 500x increase over previous dense attention-based models. HyenaDNA scales sub-quadratically in sequence length (training up to 160x faster than Transformer), uses single nucleotide tokens, and has full global context at each layer. We explore what longer context enables - including the first use of in-context learning in genomics for simple adaptation to novel tasks without updating pretrained model weights. On fine-tuned benchmarks from the Nucleotide Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 17 datasets using a model with orders of magnitude less parameters and pretraining data. On the GenomicBenchmarks, HyenaDNA surpasses SotA on all 8 datasets on average by +9 accuracy points.
PDF172December 15, 2024