ChatPaper.aiChatPaper

LaViT: Ausrichtung latenter visueller Gedanken für multimodales Schließen

LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

January 15, 2026
papers.authors: Linquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung
cs.AI

papers.abstract

Aktuelle multimodale latente Reasoning-Ansätze verlassen sich oft auf externe Supervision (z.B. Hilfsbilder) und ignorieren dabei intrinsische visuelle Aufmerksamkeitsdynamiken. In dieser Arbeit identifizieren wir eine kritische Wahrnehmungslücke bei der Wissensdistillation: Schülermodelle imitieren häufig die textuelle Ausgabe eines Lehrermodells, während sie sich auf grundlegend unterschiedliche visuelle Regionen konzentrieren, wodurch sie effektiv eher auf Sprachpriors als auf fundierte Wahrnehmung zurückgreifen. Um diese Lücke zu schließen, schlagen wir LaViT vor – ein Framework, das latente visuelle Gedankengänge anstelle statischer Embeddings aligniert. LaViT zwingt das Schülermodell, die visuelle Semantik und Aufmerksamkeitstrajektorien des Lehrers autoregressiv zu rekonstruieren, bevor Text generiert wird, und verwendet dabei einen Curriculum-Sensory-Gating-Mechanismus, um Shortcut-Learning zu verhindern. Umfangreiche Experimente zeigen, dass LaViT die visuelle Verankerung signifikant verbessert, mit Gewinnen von bis zu +16,9 % bei komplexen Reasoning-Aufgaben, und es einem kompakten 3B-Modell ermöglicht, größere Open-Source-Varianten sowie proprietäre Modelle wie GPT-4o zu übertreffen.
English
Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.
PDF41January 17, 2026