Avey-B
Avey-B
February 17, 2026
Auteurs: Devang Acharya, Mohammad Hammoud
cs.AI
Samenvatting
Compacte vooraf getrainde bidirectionele encoders vormen nog steeds de ruggengraat van industriële NLP onder strikte reken- en geheugenbudgetten. Hun effectiviteit vloeit voort uit het vermogen van self-attention om hoogwaardige bidirectionele contextualisatie te bieden met parallelisme op sequentieniveau, zoals populair gemaakt door BERT-achtige architecturen. Recent werd Avey geïntroduceerd als een autoregressief, attention-vrij alternatief dat zich natuurlijk leent voor een encoder-only aanpassing. In dit artikel herformuleren we Avey voor het encoder-only paradigma en stellen we verschillende innovaties voor in de architectuur, waaronder ontkoppelde statische en dynamische parameterisaties, stabiliteitsgerichte normalisatie en neurale compressie. Resultaten tonen aan dat deze herformuleerde architectuur gunstig afsteekt tegen vier veelgebruikte Transformer-gebaseerde encoders, door hen consistent te overtreffen op standaard tokenclassificatie- en informatie-retrieval benchmarks, terwijl ze efficiënter schaalt naar lange contexten.
English
Compact pretrained bidirectional encoders remain the backbone of industrial NLP under tight compute and memory budgets. Their effectiveness stems from self-attention's ability to deliver high-quality bidirectional contextualization with sequence-level parallelism, as popularized by BERT-style architectures. Recently, Avey was introduced as an autoregressive, attention-free alternative that naturally admits an encoder-only adaptation. In this paper, we reformulate Avey for the encoder-only paradigm and propose several innovations to its architecture, including decoupled static and dynamic parameterizations, stability-oriented normalization, and neural compression. Results show that this reformulated architecture compares favorably to four widely used Transformer-based encoders, consistently outperforming them on standard token-classification and information-retrieval benchmarks while scaling more efficiently to long contexts.