주의를 기울이지 마세요
Don't Pay Attention
June 12, 2025
저자: Mohammad Hammoud, Devang Acharya
cs.AI
초록
트랜스포머(Transformer)는 대규모 언어 모델과 다양한 도메인에서의 다운스트림 작업을 위한 사실상의 표준이 되었습니다. 고유한 학습 병렬성과 같은 수많은 장점에도 불구하고, 트랜스포머는 고정된 컨텍스트 윈도우를 초과하는 시퀀스를 효과적으로 처리하지 못하고, 어텐션 메커니즘의 이차 복잡성으로 인해 주요한 과제에 직면해 있습니다. 이러한 과제는 시퀀스 길이에 대해 선형적으로 확장되고 장거리 의존성을 더 잘 처리할 수 있는 RNN(Recurrent Neural Network)과 같은 아키텍처에 대한 관심을 다시 불러일으켰습니다. 비록 RNN은 고유한 순환 특성으로 인해 병렬성이 제한되지만, 이러한 장점은 여전히 매력적입니다. 본 논문에서는 어텐션과 순환 구조 모두에서 벗어난 새로운 신경 기반 아키텍처인 Avey를 제안합니다. Avey는 랭커(ranker)와 자기회귀 신경 프로세서(autoregressive neural processor)로 구성되어 있으며, 이들은 협력하여 시퀀스 내 위치에 관계없이 주어진 토큰에 대해 가장 관련성이 높은 토큰만 식별하고 컨텍스트화합니다. 특히, Avey는 시퀀스 길이를 컨텍스트 너비와 분리함으로써 임의로 긴 시퀀스를 효과적으로 처리할 수 있도록 합니다. 실험 결과는 Avey가 다양한 표준 단거리 NLP 벤치마크에서 트랜스포머와 비교하여 우수한 성능을 보이며, 특히 장거리 의존성을 포착하는 데 뛰어난 성과를 보여줍니다.
English
The Transformer has become the de facto standard for large language models
and a wide range of downstream tasks across various domains. Despite its
numerous advantages like inherent training parallelism, the Transformer still
faces key challenges due to its inability to effectively process sequences
beyond a fixed context window and the quadratic complexity of its attention
mechanism. These challenges have renewed interest in RNN-like architectures,
which offer linear scaling with sequence length and improved handling of
long-range dependencies, albeit with limited parallelism due to their
inherently recurrent nature. In this paper, we propose Avey, a new neural
foundational architecture that breaks away from both attention and recurrence.
Avey comprises a ranker and an autoregressive neural processor, which
collaboratively identify and contextualize only the most relevant tokens for
any given token, regardless of their positions in the sequence. Specifically,
Avey decouples sequence length from context width, thus enabling effective
processing of arbitrarily long sequences. Experimental results show that Avey
compares favorably to the Transformer across a variety of standard short-range
NLP benchmarks, while notably excelling at capturing long-range dependencies.