ChatPaper.aiChatPaper

LaViT: 잠재적 시각 사고 정렬을 통한 다중 모달 추론

LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

January 15, 2026
저자: Linquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung
cs.AI

초록

현재의 다중모달 잠재 추론은 종종 외부 감독(예: 보조 이미지)에 의존하며, 내재적인 시각 주의 역학을 간과합니다. 본 연구에서는 지식 증류 과정에서 중요한 인식 격차(Perception Gap)를 확인했습니다. 학생 모델이 교사 모델의 텍스트 출력을 모방하는 동시에 근본적으로 다른 시각 영역에 주의를 기울이는 경우가 빈번히 발생하며, 이는 접지된 인식(Grounded Perception)보다 언어 사전 지식(Language Priors)에 의존하는 효과를 냅니다. 이를 해결하기 위해 우리는 정적 임베딩이 아닌 잠재적 시각 사고(Latent Visual Thoughts)를 정렬하는 LaViT 프레임워크를 제안합니다. LaViT는 학생 모델이 텍스트 생성에 앞서 교사 모델의 시각적 의미론과 주의 궤적(Attention Trajectories)을 자동회귀적으로 재구성하도록 강제하며, 숏컷 학습(Shortcut Learning)을 방지하기 위해 커리큘럼 감각 게이팅(Curriculum Sensory Gating) 메커니즘을 활용합니다. 폭넓은 실험을 통해 LaViT가 시각적 접지(Visual Grounding)를 크게 향상시켜 복잡한 추론 과제에서 최대 +16.9%의 성능 향상을 달성하고, 소규모의 3B 매개변수 모델이 더 큰 오픈소스 변형 모델들과 GPT-4o와 같은 사유 모델들을 능가할 수 있음을 입증했습니다.
English
Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.
PDF41January 17, 2026