CASA: 効率的な視覚言語融合のための自己注意を介したクロス注意
CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion
December 22, 2025
著者: Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez
cs.AI
要旨
視覚言語モデル(VLM)は一般に、事前学習済みの視覚エンコーダーから抽出した画像トークンを言語モデルのテキストストリームに挿入する方式で学習されます。この手法ではモデル内でテキストと画像情報が相互に完全に注意を払えますが、高解像度画像や長い対話、ストリーミング動画を扱う場合、メモリと計算量の両面で極めて高コストになります。クロスアテンションを活用するVLMはトークン挿入に比べ効率的な代替手段ですが、特に細かな視覚的詳細を要するタスクにおいて性能差が顕著です。本研究では、こうしたモデルを改善する鍵が、専用のクロスアテンション層において局所的なテキスト間相互作用を可能にすることにあることを明らかにしました。この知見に基づき、我々はCASA(Cross-Attention via Self-Attention)を提案します。これはシンプルかつ効率的なパラダイムであり、一般的な画像理解ベンチマークでは完全なトークン挿入方式との性能差を大幅に縮めつつ、ストリーミング動画キャプション生成のような長文脈マルチモーダルタスクに適用する際には、クロスアテンションモデルと同様の拡張性を維持します。サンプルとコードはプロジェクトページ(https://kyutai.org/casa)で公開しています。
English
Vision-language models (VLMs) are commonly trained by inserting image tokens from a pretrained vision encoder into the textual stream of a language model. This allows text and image information to fully attend to one another within the model, but becomes extremely costly for high-resolution images, long conversations, or streaming videos, both in memory and compute. VLMs leveraging cross-attention are an efficient alternative to token insertion but exhibit a clear performance gap, in particular on tasks involving fine-grained visual details. We find that a key to improving such models is to also enable local text-to-text interaction in the dedicated cross-attention layers. Building on this, we propose CASA, Cross-Attention via Self-Attention, a simple and efficient paradigm which substantially reduces the gap with full token insertion on common image understanding benchmarks, while enjoying the same scalability as cross-attention models when applied to long-context multimodal tasks such as streaming video captioning. For samples and code, please see our project page at https://kyutai.org/casa .