ChatPaper.aiChatPaper

Ави-Б

Avey-B

February 17, 2026
Авторы: Devang Acharya, Mohammad Hammoud
cs.AI

Аннотация

Компактные предобученные двунаправленные энкодеры остаются основой промышленных NLP-систем при ограниченных вычислительных ресурсах и бюджетах памяти. Их эффективность обусловлена способностью самовнимания обеспечивать высококачественную двунаправленную контекстуализацию с поуровневым параллелизмом, что стало популярным благодаря архитектурам типа BERT. Недавно была представлена авторегрессионная модель Avey, не использующая механизм внимания, которая естественным образом допускает адаптацию в виде энкодера. В данной работе мы переформулируем Avey для парадигмы «только энкодер» и предлагаем ряд усовершенствований её архитектуры, включая разделенные статическую и динамическую параметризации, нормализацию, ориентированную на стабильность, и нейронное сжатие. Результаты показывают, что переработанная архитектура успешно конкурирует с четырьмя широко используемыми трансформерными энкодерами, стабильно превосходя их на стандартных тестах токен-классификации и информационного поиска, а также демонстрируя более эффективное масштабирование на длинных контекстах.
English
Compact pretrained bidirectional encoders remain the backbone of industrial NLP under tight compute and memory budgets. Their effectiveness stems from self-attention's ability to deliver high-quality bidirectional contextualization with sequence-level parallelism, as popularized by BERT-style architectures. Recently, Avey was introduced as an autoregressive, attention-free alternative that naturally admits an encoder-only adaptation. In this paper, we reformulate Avey for the encoder-only paradigm and propose several innovations to its architecture, including decoupled static and dynamic parameterizations, stability-oriented normalization, and neural compression. Results show that this reformulated architecture compares favorably to four widely used Transformer-based encoders, consistently outperforming them on standard token-classification and information-retrieval benchmarks while scaling more efficiently to long contexts.
PDF24February 24, 2026