CASA: Atenção Cruzada via Auto-Atenção para Fusão Eficiente de Visão e Linguagem
CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion
December 22, 2025
Autores: Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez
cs.AI
Resumo
Os modelos visão-linguagem (VLMs) são normalmente treinados inserindo tokens de imagem de um codificador visual pré-treinado no fluxo textual de um modelo de linguagem. Isso permite que informações textuais e visuais se atendam mutuamente dentro do modelo, mas torna-se extremamente custoso para imagens de alta resolução, conversas longas ou vídeos em streaming, tanto em memória quanto em computação. Os VLMs que utilizam atenção cruzada são uma alternativa eficiente à inserção de tokens, mas exibem uma lacuna de desempenho clara, particularmente em tarefas que envolvem detalhes visuais refinados. Descobrimos que uma chave para melhorar tais modelos é também permitir a interação local texto-a-texto nas camadas dedicadas de atenção cruzada. Com base nisso, propomos o CASA, Cross-Attention via Self-Attention, um paradigma simples e eficiente que reduz substancialmente a lacuna com a inserção total de tokens em benchmarks comuns de compreensão de imagem, ao mesmo tempo que oferece a mesma escalabilidade dos modelos de atenção cruzada quando aplicados a tarefas multimodais de contexto longo, como a legendagem de vídeos em streaming. Para amostras e código, consulte nossa página do projeto em https://kyutai.org/casa.
English
Vision-language models (VLMs) are commonly trained by inserting image tokens from a pretrained vision encoder into the textual stream of a language model. This allows text and image information to fully attend to one another within the model, but becomes extremely costly for high-resolution images, long conversations, or streaming videos, both in memory and compute. VLMs leveraging cross-attention are an efficient alternative to token insertion but exhibit a clear performance gap, in particular on tasks involving fine-grained visual details. We find that a key to improving such models is to also enable local text-to-text interaction in the dedicated cross-attention layers. Building on this, we propose CASA, Cross-Attention via Self-Attention, a simple and efficient paradigm which substantially reduces the gap with full token insertion on common image understanding benchmarks, while enjoying the same scalability as cross-attention models when applied to long-context multimodal tasks such as streaming video captioning. For samples and code, please see our project page at https://kyutai.org/casa .