ChatPaper.aiChatPaper

LaViT : Alignement des pensées visuelles latentes pour le raisonnement multimodal

LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

January 15, 2026
papers.authors: Linquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung
cs.AI

papers.abstract

Le raisonnement latent multimodal actuel repose souvent sur une supervision externe (par exemple, des images auxiliaires), ignorant la dynamique attentionnelle visuelle intrinsèque. Dans ce travail, nous identifions un Écart de Perception critique dans la distillation : les modèles étudiants imitent fréquemment la sortie textuelle d'un enseignant tout en se concentrant sur des régions visuelles fondamentalement divergentes, reposant ainsi sur des préalables linguistiques plutôt que sur une perception ancrée. Pour combler cet écart, nous proposons LaViT, un cadre qui aligne les pensées visuelles latentes plutôt que les embeddings statiques. LaViT contraint l'étudiant à reconstruire de manière autorégressive la sémantique visuelle et les trajectoires attentionnelles de l'enseignant avant la génération de texte, en employant un mécanisme de verrouillage sensoriel curriculaire pour éviter l'apprentissage par raccourci. Des expériences approfondies montrent que LaViT améliore significativement l'ancrage visuel, obtenant des gains allant jusqu'à +16,9 % sur des tâches de raisonnement complexe, et permettant à un modèle compact de 3B de surpasser des variantes open-source plus grandes et des modèles propriétaires comme GPT-4o.
English
Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.
PDF41January 17, 2026