하이에나DNA: 단일 뉴클레오티드 해상도에서의 장거리 게놈 시퀀스 모델링
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
June 27, 2023
저자: Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris Ré
cs.AI
초록
유전체(DNA) 서열은 유전자 조절과 단백질 합성을 위한 방대한 양의 정보를 인코딩합니다. 자연어 모델과 유사하게, 연구자들은 유전체학에서 레이블이 없는 유전체 데이터로부터 일반화 가능한 특징을 학습한 후, 규제 요소 식별과 같은 다운스트림 작업에 미세 조정할 수 있는 기초 모델을 제안했습니다. 주의 메커니즘의 이차적 스케일링으로 인해, 이전의 Transformer 기반 유전체 모델들은 512에서 4k 토큰을 컨텍스트로 사용했으며(<0.001%의 인간 유전체), 이는 DNA 내 장거리 상호작용 모델링을 상당히 제한했습니다. 또한, 이러한 방법들은 의미 있는 DNA 단위를 집계하기 위해 토크나이저에 의존함으로써, 단일 뉴클레오티드 변이(SNPs)를 통해 단백질 기능을 완전히 바꿀 수 있는 미세한 유전적 변이를 잃어버렸습니다. 최근, 암시적 컨볼루션을 기반으로 한 대형 언어 모델인 Hyena는 더 긴 컨텍스트 길이와 더 낮은 시간 복잡도를 허용하면서도 주의 메커니즘과 동등한 품질을 보여주었습니다. Hyena의 새로운 장거리 기능을 활용하여, 우리는 단일 뉴클레오티드 수준에서 최대 100만 토큰의 컨텍스트 길이로 인간 참조 유전체에 사전 훈련된 유전체 기초 모델인 HyenaDNA를 제시합니다. 이는 이전의 밀집 주의 기반 모델 대비 최대 500배 증가한 수치입니다. HyenaDNA는 서열 길이에 대해 준이차적으로 스케일링되며(Transformer 대비 최대 160배 빠른 훈련 속도), 단일 뉴클레오티드 토큰을 사용하고, 각 레이어에서 전역 컨텍스트를 완전히 갖춥니다. 우리는 더 긴 컨텍스트가 가능하게 하는 것, 즉 사전 훈련된 모델 가중치를 업데이트하지 않고도 새로운 작업에 간단히 적응할 수 있는 유전체학 내 컨텍스트 학습의 첫 사용을 탐구합니다. Nucleotide Transformer의 미세 조정 벤치마크에서, HyenaDNA는 훨씬 적은 매개변수와 사전 훈련 데이터를 사용하여 17개 데이터셋 중 12개에서 최첨단(SotA) 성능을 달성했습니다. GenomicBenchmarks에서는 HyenaDNA가 모든 8개 데이터셋에서 평균 +9 정확도 포인트로 SotA를 능가했습니다.
English
Genomic (DNA) sequences encode an enormous amount of information for gene
regulation and protein synthesis. Similar to natural language models,
researchers have proposed foundation models in genomics to learn generalizable
features from unlabeled genome data that can then be fine-tuned for downstream
tasks such as identifying regulatory elements. Due to the quadratic scaling of
attention, previous Transformer-based genomic models have used 512 to 4k tokens
as context (<0.001% of the human genome), significantly limiting the modeling
of long-range interactions in DNA. In addition, these methods rely on
tokenizers to aggregate meaningful DNA units, losing single nucleotide
resolution where subtle genetic variations can completely alter protein
function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large
language model based on implicit convolutions was shown to match attention in
quality while allowing longer context lengths and lower time complexity.
Leveraging Hyenas new long-range capabilities, we present HyenaDNA, a genomic
foundation model pretrained on the human reference genome with context lengths
of up to 1 million tokens at the single nucleotide-level, an up to 500x
increase over previous dense attention-based models. HyenaDNA scales
sub-quadratically in sequence length (training up to 160x faster than
Transformer), uses single nucleotide tokens, and has full global context at
each layer. We explore what longer context enables - including the first use of
in-context learning in genomics for simple adaptation to novel tasks without
updating pretrained model weights. On fine-tuned benchmarks from the Nucleotide
Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 17 datasets
using a model with orders of magnitude less parameters and pretraining data. On
the GenomicBenchmarks, HyenaDNA surpasses SotA on all 8 datasets on average by
+9 accuracy points.