Avey-B

Resumo

Codificadores bidirecionais pré-treinados compactos continuam sendo a espinha dorsal do PLN industrial sob orçamentos restritos de computação e memória. Sua eficácia decorre da capacidade da autoatenção de fornecer contextualização bidirecional de alta qualidade com paralelismo em nível de sequência, como popularizado pelas arquiteturas no estilo BERT. Recentemente, o Avey foi introduzido como uma alternativa autoregressiva e livre de atenção que naturalmente admite uma adaptação apenas para codificador. Neste artigo, reformulamos o Avey para o paradigma apenas de codificador e propomos várias inovações em sua arquitetura, incluindo parametrizações estáticas e dinâmicas desacopladas, normalização orientada à estabilidade e compressão neural. Os resultados mostram que esta arquitetura reformulada se compara favoravelmente a quatro codificadores baseados em Transformer amplamente utilizados, superando-os consistentemente em benchmarks padrão de classificação de tokens e recuperação de informação, enquanto escala de forma mais eficiente para contextos longos.

English

Compact pretrained bidirectional encoders remain the backbone of industrial NLP under tight compute and memory budgets. Their effectiveness stems from self-attention's ability to deliver high-quality bidirectional contextualization with sequence-level parallelism, as popularized by BERT-style architectures. Recently, Avey was introduced as an autoregressive, attention-free alternative that naturally admits an encoder-only adaptation. In this paper, we reformulate Avey for the encoder-only paradigm and propose several innovations to its architecture, including decoupled static and dynamic parameterizations, stability-oriented normalization, and neural compression. Results show that this reformulated architecture compares favorably to four widely used Transformer-based encoders, consistently outperforming them on standard token-classification and information-retrieval benchmarks while scaling more efficiently to long contexts.