ChatPaper.aiChatPaper

HyenaDNA: Langstrecken-Genomsequenzmodellierung mit Einzelnukleotid-Auflösung

HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

June 27, 2023
Autoren: Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris Ré
cs.AI

Zusammenfassung

Genomische (DNA-)Sequenzen kodieren eine enorme Menge an Informationen für die Genregulation und Proteinsynthese. Ähnlich wie bei natürlichen Sprachmodellen haben Forscher Foundation-Modelle in der Genomik vorgeschlagen, um generalisierbare Merkmale aus unmarkierten Genomdaten zu lernen, die dann für nachgelagerte Aufgaben wie die Identifizierung regulatorischer Elemente feinabgestimmt werden können. Aufgrund der quadratischen Skalierung der Aufmerksamkeit haben bisherige Transformer-basierte Genommodelle 512 bis 4k Token als Kontext verwendet (<0,001 % des menschlichen Genoms), was die Modellierung langreichweitiger Interaktionen in der DNA erheblich einschränkt. Darüber hinaus verlassen sich diese Methoden auf Tokenizer, um bedeutungsvolle DNA-Einheiten zu aggregieren, wodurch die Einzelnukleotid-Auflösung verloren geht, bei der subtile genetische Variationen die Proteinfunktion durch Einzelnukleotid-Polymorphismen (SNPs) vollständig verändern können. Kürzlich wurde gezeigt, dass Hyena, ein großes Sprachmodell, das auf impliziten Faltungen basiert, die Qualität der Aufmerksamkeit erreicht, während es längere Kontextlängen und eine geringere Zeitkomplexität ermöglicht. Unter Nutzung der neuen langreichweitigen Fähigkeiten von Hyena präsentieren wir HyenaDNA, ein genomisches Foundation-Modell, das auf dem menschlichen Referenzgenom mit Kontextlängen von bis zu 1 Million Token auf Einzelnukleotid-Ebene vortrainiert wurde, was einer bis zu 500-fachen Steigerung gegenüber früheren dichten Aufmerksamkeitsmodellen entspricht. HyenaDNA skaliert subquadratisch in der Sequenzlänge (bis zu 160-mal schneller als Transformer), verwendet Einzelnukleotid-Token und verfügt in jeder Schicht über einen vollständigen globalen Kontext. Wir untersuchen, was längere Kontexte ermöglichen – einschließlich der ersten Anwendung von In-Context-Learning in der Genomik zur einfachen Anpassung an neue Aufgaben ohne Aktualisierung der vortrainierten Modellgewichte. Bei feinabgestimmten Benchmarks des Nucleotide Transformers erreicht HyenaDNA den State-of-the-Art (SotA) auf 12 von 17 Datensätzen mit einem Modell, das um Größenordnungen weniger Parameter und Vortrainingsdaten verwendet. Auf den GenomicBenchmarks übertrifft HyenaDNA den SotA auf allen 8 Datensätzen im Durchschnitt um +9 Genauigkeitspunkte.
English
Genomic (DNA) sequences encode an enormous amount of information for gene regulation and protein synthesis. Similar to natural language models, researchers have proposed foundation models in genomics to learn generalizable features from unlabeled genome data that can then be fine-tuned for downstream tasks such as identifying regulatory elements. Due to the quadratic scaling of attention, previous Transformer-based genomic models have used 512 to 4k tokens as context (<0.001% of the human genome), significantly limiting the modeling of long-range interactions in DNA. In addition, these methods rely on tokenizers to aggregate meaningful DNA units, losing single nucleotide resolution where subtle genetic variations can completely alter protein function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large language model based on implicit convolutions was shown to match attention in quality while allowing longer context lengths and lower time complexity. Leveraging Hyenas new long-range capabilities, we present HyenaDNA, a genomic foundation model pretrained on the human reference genome with context lengths of up to 1 million tokens at the single nucleotide-level, an up to 500x increase over previous dense attention-based models. HyenaDNA scales sub-quadratically in sequence length (training up to 160x faster than Transformer), uses single nucleotide tokens, and has full global context at each layer. We explore what longer context enables - including the first use of in-context learning in genomics for simple adaptation to novel tasks without updating pretrained model weights. On fine-tuned benchmarks from the Nucleotide Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 17 datasets using a model with orders of magnitude less parameters and pretraining data. On the GenomicBenchmarks, HyenaDNA surpasses SotA on all 8 datasets on average by +9 accuracy points.
PDF172December 15, 2024