ChatPaper.aiChatPaper

자기 지도 가이던스를 통한 시각적 명령어 튜닝 향상

Boosting Visual Instruction Tuning with Self-Supervised Guidance

April 14, 2026
저자: Sophia Sirko-Galouchenko, Monika Wysoczanska, Andrei Bursuc, Nicolas Thome, Spyros Gidaris
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)은 많은 비전-언어 과제에서 우수한 성능을 보이지만, 미세한 시각적 추론이 필요한 비전 중심 문제에는 종종 어려움을 겪습니다. 최근 연구에 따르면 이러한 한계는 약한 시각 표현에서 기인하는 것이 아니라, 지시어 튜닝 과정에서 시각 정보가 충분히 활용되지 않기 때문입니다. 많은 과제가 언어 선험적 지식만으로도 부분적으로 해결될 수 있기 때문입니다. 본 논문에서는 시각적으로 기반을 둔 소수의 자기 지도 학습 과제를 자연어 지시어 형태로 시각 지시어 튜닝에 추가하는 간단하고 경량화된 접근법을 제안합니다. 회전 예측, 색상 매칭, 교차 뷰 일치와 같은 기존 자기 지도 학습 전제 과제를 이미지-지시어-응답 삼중항으로 재구성함으로써, 시각적 증거에 의존하지 않고는 해결할 수 없는 감독 신호를 도입합니다. 우리의 접근법은 인간 주해, 구조 수정, 추가 학습 단계가 필요하지 않습니다. 다양한 모델, 학습 체계, 벤치마크에서 이러한 시각적으로 기반을 둔 지시어를 극소량(3-10%)만 주입해도 비전 중심 평가에서의 성능이 지속적으로 향상됩니다. 우리의 연구 결과는 시각적으로 기반을 둔 자기 지도 학습 과제를 통한 지시어 튜닝이 단순히 학습 데이터 분포를 조정함으로써 MLLM의 시각적 추론 능력을 향상시키는 강력한 수단임을 보여줍니다. 코드는 https://github.com/sirkosophia/V-GIFT에서 확인할 수 있습니다.
English
Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT
PDF51April 18, 2026