ChatPaper.aiChatPaper

CASA : Attention Croisée via Auto-Attention pour une Fusion Vision-Langage Efficace

CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

December 22, 2025
papers.authors: Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez
cs.AI

papers.abstract

Les modèles vision-langage (VLM) sont généralement entraînés en insérant des jetons visuels issus d'un encodeur de vision préentraîné dans le flux textuel d'un modèle de langage. Cette approche permet une attention mutuelle complète entre les informations textuelles et visuelles au sein du modèle, mais devient extrêmement coûteuse pour les images haute résolution, les conversations longues ou les vidéos en streaming, tant en mémoire qu'en calcul. Les VLM utilisant l'attention croisée constituent une alternative efficace à l'insertion de jetons, mais présentent un écart de performance notable, particulièrement sur les tâches impliquant des détails visuels fins. Nous constatons qu'une clé pour améliorer ces modèles est de permettre également l'interaction locale texte-texte dans les couches d'attention croisée dédiées. En nous appuyant sur cela, nous proposons CASA, Cross-Attention via Self-Attention, un paradigme simple et efficace qui réduit considérablement l'écart avec l'insertion complète de jetons sur les benchmarks courants de compréhension d'images, tout en bénéficiant de la même évolutivité que les modèles à attention croisée lorsqu'ils sont appliqués à des tâches multimodales à contexte long, telles que la description de vidéos en streaming. Pour les échantillons et le code, veuillez consulter notre page projet à l'adresse https://kyutai.org/casa.
English
Vision-language models (VLMs) are commonly trained by inserting image tokens from a pretrained vision encoder into the textual stream of a language model. This allows text and image information to fully attend to one another within the model, but becomes extremely costly for high-resolution images, long conversations, or streaming videos, both in memory and compute. VLMs leveraging cross-attention are an efficient alternative to token insertion but exhibit a clear performance gap, in particular on tasks involving fine-grained visual details. We find that a key to improving such models is to also enable local text-to-text interaction in the dedicated cross-attention layers. Building on this, we propose CASA, Cross-Attention via Self-Attention, a simple and efficient paradigm which substantially reduces the gap with full token insertion on common image understanding benchmarks, while enjoying the same scalability as cross-attention models when applied to long-context multimodal tasks such as streaming video captioning. For samples and code, please see our project page at https://kyutai.org/casa .
PDF31December 24, 2025