CASA: Cross-Attention durch Self-Attention für effiziente Vision-Language-Fusion
CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion
December 22, 2025
papers.authors: Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez
cs.AI
papers.abstract
Vision-Language-Modelle (VLMs) werden üblicherweise trainiert, indem Bild-Tokens aus einem vortrainierten Vision-Encoder in den Textstrom eines Sprachmodells eingefügt werden. Dies ermöglicht es Text- und Bildinformationen, sich im Modell vollständig gegenseitig zu beachten, wird jedoch bei hochauflösenden Bildern, langen Konversationen oder Streaming-Videos sowohl speicher- als auch rechenseitig extrem kostspielig. VLMs, die Cross-Attention nutzen, sind eine effiziente Alternative zur Token-Einfügung, weisen jedoch eine deutliche Leistungslücke auf, insbesondere bei Aufgaben, die feinkörnige visuelle Details betreffen. Wir stellen fest, dass ein Schlüssel zur Verbesserung solcher Modelle darin besteht, auch lokale Text-zu-Text-Interaktion in den dedizierten Cross-Attention-Schichten zu ermöglichen. Aufbauend darauf schlagen wir CASA (Cross-Attention via Self-Attention) vor, ein einfaches und effizientes Paradigma, das die Leistungslücke zur vollständigen Token-Einfügung auf gängigen Bildverständnis-Benchmarks erheblich verringert, während es die gleiche Skalierbarkeit wie Cross-Attention-Modelle bei langkontextigen multimodalen Aufgaben wie der Beschriftung von Streaming-Videos beibehält. Für Beispiele und Code besuchen Sie bitte unsere Projektseite unter https://kyutai.org/casa.
English
Vision-language models (VLMs) are commonly trained by inserting image tokens from a pretrained vision encoder into the textual stream of a language model. This allows text and image information to fully attend to one another within the model, but becomes extremely costly for high-resolution images, long conversations, or streaming videos, both in memory and compute. VLMs leveraging cross-attention are an efficient alternative to token insertion but exhibit a clear performance gap, in particular on tasks involving fine-grained visual details. We find that a key to improving such models is to also enable local text-to-text interaction in the dedicated cross-attention layers. Building on this, we propose CASA, Cross-Attention via Self-Attention, a simple and efficient paradigm which substantially reduces the gap with full token insertion on common image understanding benchmarks, while enjoying the same scalability as cross-attention models when applied to long-context multimodal tasks such as streaming video captioning. For samples and code, please see our project page at https://kyutai.org/casa .