Avey-B
Avey-B
February 17, 2026
papers.authors: Devang Acharya, Mohammad Hammoud
cs.AI
papers.abstract
Kompakte vortrainierte bidirektionale Encoder bilden nach wie vor das Rückgrat der industriellen NLP unter strengen Rechen- und Speicherbudgets. Ihre Effektivität rührt von der Fähigkeit der Self-Attention her, hochwertige bidirektionale Kontextualisierung mit Sequenzparallelität zu liefern, wie sie durch BERT-artige Architekturen populär wurde. Kürzlich wurde Avey als autoregressive, attention-freie Alternative eingeführt, die sich natürlich für eine Nur-Encoder-Adaption eignet. In diesem Beitrag formulieren wir Avey für das Nur-Encoder-Paradigma neu und schlagen mehrere Innovationen für seine Architektur vor, darunter entkoppelte statische und dynamische Parametrisierungen, stabilitätsorientierte Normalisierung und neuronale Kompression. Die Ergebnisse zeigen, dass diese neu formulierte Architektur positiv mit vier weit verbreiteten Transformer-basierten Encodern vergleichbar ist, sie auf Standard-Benchmarks für Token-Klassifikation und Informationsretrieval konsequent übertrifft und dabei effizienter auf lange Kontexte skaliert.
English
Compact pretrained bidirectional encoders remain the backbone of industrial NLP under tight compute and memory budgets. Their effectiveness stems from self-attention's ability to deliver high-quality bidirectional contextualization with sequence-level parallelism, as popularized by BERT-style architectures. Recently, Avey was introduced as an autoregressive, attention-free alternative that naturally admits an encoder-only adaptation. In this paper, we reformulate Avey for the encoder-only paradigm and propose several innovations to its architecture, including decoupled static and dynamic parameterizations, stability-oriented normalization, and neural compression. Results show that this reformulated architecture compares favorably to four widely used Transformer-based encoders, consistently outperforming them on standard token-classification and information-retrieval benchmarks while scaling more efficiently to long contexts.