ChatPaper.aiChatPaper

Non Prestare Attenzione

Don't Pay Attention

June 12, 2025
Autori: Mohammad Hammoud, Devang Acharya
cs.AI

Abstract

Il Transformer è diventato lo standard de facto per i modelli linguistici di grandi dimensioni e per una vasta gamma di task downstream in vari domini. Nonostante i suoi numerosi vantaggi, come il parallelismo intrinseco durante l'addestramento, il Transformer deve ancora affrontare sfide significative a causa della sua incapacità di elaborare efficacemente sequenze che superano una finestra di contesto fissa e della complessità quadratica del suo meccanismo di attenzione. Queste sfide hanno rinnovato l'interesse per architetture simili alle RNN, che offrono una scalabilità lineare con la lunghezza della sequenza e una migliore gestione delle dipendenze a lungo termine, sebbene con un parallelismo limitato a causa della loro natura intrinsecamente ricorrente. In questo articolo, proponiamo Avey, una nuova architettura neurale di base che si discosta sia dall'attenzione che dalla ricorrenza. Avey è composto da un ranker e da un processore neurale autoregressivo, che collaborano per identificare e contestualizzare solo i token più rilevanti per un dato token, indipendentemente dalla loro posizione nella sequenza. In particolare, Avey disaccoppia la lunghezza della sequenza dalla larghezza del contesto, consentendo così un'elaborazione efficace di sequenze arbitrariamente lunghe. I risultati sperimentali dimostrano che Avey si confronta favorevolmente con il Transformer in una varietà di benchmark NLP a breve raggio, mentre eccelle particolarmente nella cattura delle dipendenze a lungo raggio.
English
The Transformer has become the de facto standard for large language models and a wide range of downstream tasks across various domains. Despite its numerous advantages like inherent training parallelism, the Transformer still faces key challenges due to its inability to effectively process sequences beyond a fixed context window and the quadratic complexity of its attention mechanism. These challenges have renewed interest in RNN-like architectures, which offer linear scaling with sequence length and improved handling of long-range dependencies, albeit with limited parallelism due to their inherently recurrent nature. In this paper, we propose Avey, a new neural foundational architecture that breaks away from both attention and recurrence. Avey comprises a ranker and an autoregressive neural processor, which collaboratively identify and contextualize only the most relevant tokens for any given token, regardless of their positions in the sequence. Specifically, Avey decouples sequence length from context width, thus enabling effective processing of arbitrarily long sequences. Experimental results show that Avey compares favorably to the Transformer across a variety of standard short-range NLP benchmarks, while notably excelling at capturing long-range dependencies.
PDF82June 17, 2025