ChatPaper.aiChatPaper

CASA: 효율적인 시각-언어 융합을 위한 자기 주의를 통한 교차 주의

CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

December 22, 2025
저자: Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez
cs.AI

초록

비전-언어 모델(VLM)은 일반적으로 사전 훈련된 비전 인코더에서 추출한 이미지 토큰을 언어 모델의 텍스트 스트림에 삽입하는 방식으로 훈련됩니다. 이 방법은 모델 내에서 텍스트와 이미지 정보가 서로 완전히 상호작용할 수 있게 하지만, 고해상도 이미지, 긴 대화, 스트리밍 비디오의 경우 메모리와 계산 비용 측면에서 매우 비효율적이 됩니다. 크로스 어텐션을 활용하는 VLM은 토큰 삽입 방식에 비해 효율적인 대안이지만, 특히 세부적인 시각 정보를 다루는 작업에서 명확한 성능 격차를 보입니다. 우리는 이러한 모델 성능 향상의 핵심이 전용 크로스 어텐션 레이어 내에서 지역적인 텍스트-텍스트 상호작용을 가능하게 하는 데 있음을 발견했습니다. 이를 바탕으로 우리는 CASA(Cross-Attention via Self-Attention)를 제안합니다. CASA는 간단하면서도 효율적인 패러다임으로, 일반적인 이미지 이해 벤치마크에서 전체 토큰 삽입 방식과의 성능 격차를 크게 줄이면서, 스트리밍 비디오 캡셔닝과 같은 장문의 멀티모달 작업에 적용할 때 크로스 어텐션 모델과 동일한 확장성을 유지합니다. 샘플 및 코드는 https://kyutai.org/casa 프로젝트 페이지에서 확인하실 수 있습니다.
English
Vision-language models (VLMs) are commonly trained by inserting image tokens from a pretrained vision encoder into the textual stream of a language model. This allows text and image information to fully attend to one another within the model, but becomes extremely costly for high-resolution images, long conversations, or streaming videos, both in memory and compute. VLMs leveraging cross-attention are an efficient alternative to token insertion but exhibit a clear performance gap, in particular on tasks involving fine-grained visual details. We find that a key to improving such models is to also enable local text-to-text interaction in the dedicated cross-attention layers. Building on this, we propose CASA, Cross-Attention via Self-Attention, a simple and efficient paradigm which substantially reduces the gap with full token insertion on common image understanding benchmarks, while enjoying the same scalability as cross-attention models when applied to long-context multimodal tasks such as streaming video captioning. For samples and code, please see our project page at https://kyutai.org/casa .
PDF31December 24, 2025