내 말을 보다: 비디오의 세밀한 객체 이해를 위한 시각 및 언어 표현 정렬
See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding
May 18, 2026
저자: Boyuan Sun, Bowen Yin, Yuanming Li, Xihan Wei, Qibin Hou
cs.AI
초록
우리는 SWIM(See What I Mean)이라는 새로운 훈련 전략을 제시한다. 이 전략은 시각 및 언어 표현을 정렬하여 텍스트 프롬프트만으로 세밀한 객체 이해를 가능하게 한다. 마스크나 포인트와 같은 명시적 시각적 프롬프트를 필요로 하는 기존 접근법과 달리, SWIM은 훈련 중에만 마스크 감독을 활용하여 교차 모달 주의를 유도함으로써, 추론 시 모델이 사용자가 지정한 객체에 자동으로 주의를 기울일 수 있게 한다. 사전 훈련된 다중 모달 대규모 언어 모델(MLLM)의 교차 주의 분석 결과, 체계적인 불일치가 드러났다: 속성 단어는 시각 양식에서 날카롭고 국소화된 활성화를 생성하는 반면, 객체 명사는 의미 참조 편향과 분산된 고수준 표현으로 인해 확산되고 흩어진 패턴을 나타낸다. 이러한 정렬 오류를 해결하기 위해, 각 객체 마스크와 정밀한 자연어 참조 표현이 쌍을 이루는 강화된 데이터셋인 NL-Refer를 구축했다. SWIM은 객체 명사에서 다층 교차 주의 맵을 추출하고, 이를 실제 마스크와 공간적 일관성을 갖도록 강제한다. 실험 결과, SWIM은 텍스트-시각 정렬을 크게 개선하고, 세밀한 객체 이해 벤치마크에서 시각적 프롬프트 기반 방법보다 우수한 성능을 달성함을 보여준다. 코드와 데이터는 https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}에서 확인할 수 있다.
English
We present SWIM (See What I Mean), a novel training strategy that aligns vision and language representations to enable fine-grained object understanding solely from textual prompts. Unlike existing approaches that require explicit visual prompts, such as masks or points, SWIM leverages mask supervision only during training to guide cross-modal attention, allowing the model to automatically attend to the user-specified object at inference. Our cross-attention analysis of pretrained multimodal large languagemodels (MLLMs) reveals a systematic discrepancy: Attribute words produce sharp, localized activations in the visual modality, whereas object nouns yield diffuse and scattered patterns due to semantic reference bias and distributed high-level representations. To address this misalignment, we construct NL-Refer, an enriched dataset, in which each object mask is paired with a precise natural language referring expression. SWIM extracts multi-layer cross-attention maps from object nouns and enforces spatial consistency with ground-truth masks. Experimental results demonstrate that SWIM substantially improves text-visual alignment and achieves superior performance over visual-prompt-based methods on fine-grained object understanding benchmarks. The code and data are available at https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.