Остатки дельта-внимания

Аннотация

Остаточные связи внимания заменяют стандартные аддитивные остаточные соединения обученным softmax-вниманием к выходам предыдущих слоёв, обеспечивая избирательную межуровневую маршрутизацию. Однако стандартные остаточные связи внимания по-прежнему учитывают накопленные скрытые состояния предыдущих слоёв, которые обладают высокой избыточностью. Мы показываем, что эта избыточность приводит к коллапсу маршрутизации в более глубоких слоях: веса внимания становятся малоконтрастными и приближаются к равномерным (максимальный вес ≈ 0,2), что ограничивает способность модели выбирать информативные состояния в предыдущих слоях. Это поднимает ключевой, но малоизученный вопрос проектирования: какие послойные представления следует маршрутизировать в остаточных связях внимания? Чтобы ответить на этот вопрос, мы предлагаем дельта-остаточные связи внимания (Delta Attention Residuals), которые учитывают дельты — изменения, вносимые каждым подслоем (v_i = h_{i+1} - h_i), — вместо накопленных состояний. Дельта-представления структурно разнообразны и дают распределения внимания с более высоким контрастом (максимальный вес ≈ 0,6), что позволяет более избирательно и эффективно маршрутизировать информацию между слоями. Этот принцип применим как на уровне отдельного подслоя, так и на уровне блока. На всех протестированных масштабах (от 220M до 7,6B) дельта-остаточные связи внимания стабильно превосходят как стандартные остатки, так и остаточные связи внимания, обеспечивая прирост по перплексии на валидации в 1,7–8,2%. Дельта-остаточные связи внимания также позволяют преобразовывать предварительно обученные контрольные точки в дельта-остаточные связи внимания с помощью стандартного дообучения. Код доступен по адресу: https://github.com/wdlctc/delta-attention-residuals-code.

English

Attention Residuals replace standard additive residual connections with learned softmax attention over previous layer outputs, enabling selective cross-layer routing. However, standard Attention Residuals still attend over cumulative hidden states in previous layers, which are highly redundant. We show that this redundancy leads to routing collapse in deeper layers: attention weights become low-contrast and closer to uniform (max weight {approx}0.2), limiting the model's ability to select informative states in previous layers. This raises a key but underexplored design question: what layer-wise representations should be routed in Attention Residuals? To answer this question, we propose Delta Attention Residuals, which attend over deltas -- the change introduced by each sublayer (v_i = h_{i+1} - h_i) -- instead of cumulative states. Delta representations are structurally diverse and yield higher-contrast attention distributions (max weight {approx}0.6), enabling more selective and effective routing across layers. This principle applies at both per-sublayer and block granularity. Across all tested scales (220M--7.6B), Delta Attention Residuals consistently outperform both standard residuals and Attention Residuals, with 1.7--8.2\% validation perplexity gains. Delta Attention Residuals also enables converting pretrained checkpoints into Delta Attention Residuals via standard fine-tuning. Code is available at https://github.com/wdlctc/delta-attention-residuals-code.