Avey-B
Avey-B
February 17, 2026
Autori: Devang Acharya, Mohammad Hammoud
cs.AI
Abstract
I codificatori bidirezionali preaddestrati compatti rimangono la spina dorsale dell'NLP industriale in presenza di budget ristretti di calcolo e memoria. La loro efficacia deriva dalla capacità dell'auto-attenzione di fornire una contestualizzazione bidirezionale di alta qualità con parallelismo a livello di sequenza, come reso popolare dalle architetture in stile BERT. Recentemente, Avey è stato introdotto come alternativa autoregressiva e priva di attenzione che ammette naturalmente un adattamento a soli encoder. In questo articolo, riformuliamo Avey per il paradigma a soli encoder e proponiamo diverse innovazioni alla sua architettura, tra cui parametrizzazioni statiche e dinamiche disaccoppiate, normalizzazione orientata alla stabilità e compressione neurale. I risultati mostrano che questa architettura riformulata si confronta favorevolmente con quattro codificatori basati su Transformer ampiamente utilizzati, superandoli costantemente su benchmark standard di classificazione di token e recupero delle informazioni, scalando inoltre in modo più efficiente verso contesti lunghi.
English
Compact pretrained bidirectional encoders remain the backbone of industrial NLP under tight compute and memory budgets. Their effectiveness stems from self-attention's ability to deliver high-quality bidirectional contextualization with sequence-level parallelism, as popularized by BERT-style architectures. Recently, Avey was introduced as an autoregressive, attention-free alternative that naturally admits an encoder-only adaptation. In this paper, we reformulate Avey for the encoder-only paradigm and propose several innovations to its architecture, including decoupled static and dynamic parameterizations, stability-oriented normalization, and neural compression. Results show that this reformulated architecture compares favorably to four widely used Transformer-based encoders, consistently outperforming them on standard token-classification and information-retrieval benchmarks while scaling more efficiently to long contexts.