Avey-B
Avey-B
February 17, 2026
papers.authors: Devang Acharya, Mohammad Hammoud
cs.AI
papers.abstract
Les encodeurs bidirectionnels préentraînés et compacts constituent l'épine dorsale du TAL industriel sous contrainte stricte de calcul et de mémoire. Leur efficacité découle de la capacité de l'auto-attention à fournir une contextualisation bidirectionnelle de haute qualité avec un parallélisme au niveau de la séquence, popularisée par les architectures de type BERT. Récemment, Avey a été introduit comme alternative autoregressive sans attention, admettant naturellement une adaptation en encodeur seul. Dans cet article, nous reformulons Avey pour le paradigme encodeur seul et proposons plusieurs innovations architecturales, incluant des paramétrisations statique et dynamique découplées, une normalisation axée sur la stabilité et une compression neuronale. Les résultats montrent que cette architecture reformulée se compare favorablement à quatre encodeurs basés sur les Transformers largement utilisés, les surpassant systématiquement sur des benchmarks standards de classification de tokens et de recherche d'information, tout en s'adaptant plus efficacement aux contextes longs.
English
Compact pretrained bidirectional encoders remain the backbone of industrial NLP under tight compute and memory budgets. Their effectiveness stems from self-attention's ability to deliver high-quality bidirectional contextualization with sequence-level parallelism, as popularized by BERT-style architectures. Recently, Avey was introduced as an autoregressive, attention-free alternative that naturally admits an encoder-only adaptation. In this paper, we reformulate Avey for the encoder-only paradigm and propose several innovations to its architecture, including decoupled static and dynamic parameterizations, stability-oriented normalization, and neural compression. Results show that this reformulated architecture compares favorably to four widely used Transformer-based encoders, consistently outperforming them on standard token-classification and information-retrieval benchmarks while scaling more efficiently to long contexts.