Avey-B

Resumen

Los codificadores bidireccionales preentrenados compactos siguen siendo la columna vertebral de la PNL industrial con restricciones estrictas de cómputo y memoria. Su eficacia proviene de la capacidad de la autoatención para ofrecer una contextualización bidireccional de alta calidad con paralelismo a nivel de secuencia, popularizada por las arquitecturas estilo BERT. Recientemente, se introdujo Avey como una alternativa autorregresiva y libre de atención que admite naturalmente una adaptación de solo codificador. En este artículo, reformulamos Avey para el paradigma de solo codificador y proponemos varias innovaciones en su arquitectura, incluyendo parametrizaciones estáticas y dinámicas desacopladas, normalización orientada a la estabilidad y compresión neuronal. Los resultados muestran que esta arquitectura reformulada se compara favorablemente con cuatro codificadores basados en Transformer ampliamente utilizados, superándolos consistentemente en benchmarks estándar de clasificación de tokens y recuperación de información, mientras escala de manera más eficiente a contextos largos.

English

Compact pretrained bidirectional encoders remain the backbone of industrial NLP under tight compute and memory budgets. Their effectiveness stems from self-attention's ability to deliver high-quality bidirectional contextualization with sequence-level parallelism, as popularized by BERT-style architectures. Recently, Avey was introduced as an autoregressive, attention-free alternative that naturally admits an encoder-only adaptation. In this paper, we reformulate Avey for the encoder-only paradigm and propose several innovations to its architecture, including decoupled static and dynamic parameterizations, stability-oriented normalization, and neural compression. Results show that this reformulated architecture compares favorably to four widely used Transformer-based encoders, consistently outperforming them on standard token-classification and information-retrieval benchmarks while scaling more efficiently to long contexts.