LaViT: Alinhando Pensamentos Visuais Latentes para Raciocínio Multimodal
LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
January 15, 2026
Autores: Linquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung
cs.AI
Resumo
Atualmente, o raciocínio latente multimodal frequentemente depende de supervisão externa (por exemplo, imagens auxiliares), ignorando a dinâmica intrínseca da atenção visual. Neste trabalho, identificamos uma Lacuna de Percepção crítica na destilação: os modelos alunos frequentemente imitam a saída textual de um professor, mas focam em regiões visuais fundamentalmente divergentes, efetivamente dependendo de *priors* linguísticos em vez de percepção fundamentada. Para superar isso, propomos o LaViT, uma estrutura que alinha pensamentos visuais latentes em vez de incorporações estáticas. O LaViT obriga o aluno a reconstruir autoregressivamente a semântica visual e as trajetórias de atenção do professor antes da geração de texto, empregando um mecanismo de portão sensorial curricular para evitar aprendizagem por atalhos. Experimentos extensivos mostram que o LaViT melhora significativamente a fundamentação visual, alcan ganhos de até +16,9% em tarefas complexas de raciocínio e permitindo que um modelo compacto de 3B supere variantes de código aberto maiores e modelos proprietários como o GPT-4o.
English
Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.