CASA: Кросс-внимание через самовнимание для эффективного объединения визуальных и языковых данных
CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion
December 22, 2025
Авторы: Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez
cs.AI
Аннотация
Модели «визуальный язык» (VLMs) обычно обучаются путем вставки токенов изображений из предварительно обученного визуального энкодера в текстовый поток языковой модели. Это позволяет текстовой и визуальной информации полностью взаимодействовать внутри модели, однако становится крайне затратным для изображений высокого разрешения, длинных диалогов или потокового видео — как по памяти, так и по вычислительным ресурсам. VLMs, использующие перекрестное внимание (cross-attention), являются эффективной альтернативой вставке токенов, но демонстрируют явный разрыв в производительности, особенно в задачах, требующих работы с мелкими визуальными деталями. Мы обнаружили, что ключом к улучшению таких моделей является также обеспечение локального взаимодействия «текст-текст» в специализированных слоях перекрестного внимания. Основываясь на этом, мы предлагаем CASA (Cross-Attention via Self-Attention) — простую и эффективную парадигму, которая существенно сокращает разрыв с полной вставкой токенов на стандартных бенчмарках понимания изображений, сохраняя при этом такую же масштабируемость, как и модели с перекрестным вниманием, при применении к многомодальным задачам с длинным контекстом, таким как описание потокового видео. Примеры и код доступны на странице проекта: https://kyutai.org/casa.
English
Vision-language models (VLMs) are commonly trained by inserting image tokens from a pretrained vision encoder into the textual stream of a language model. This allows text and image information to fully attend to one another within the model, but becomes extremely costly for high-resolution images, long conversations, or streaming videos, both in memory and compute. VLMs leveraging cross-attention are an efficient alternative to token insertion but exhibit a clear performance gap, in particular on tasks involving fine-grained visual details. We find that a key to improving such models is to also enable local text-to-text interaction in the dedicated cross-attention layers. Building on this, we propose CASA, Cross-Attention via Self-Attention, a simple and efficient paradigm which substantially reduces the gap with full token insertion on common image understanding benchmarks, while enjoying the same scalability as cross-attention models when applied to long-context multimodal tasks such as streaming video captioning. For samples and code, please see our project page at https://kyutai.org/casa .