LaViT: Alineación de Pensamientos Visuales Latentes para el Razonamiento Multimodal
LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
January 15, 2026
Autores: Linquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung
cs.AI
Resumen
El razonamiento multimodal latente actual a menudo depende de supervisión externa (por ejemplo, imágenes auxiliares), ignorando la dinámica intrínseca de la atención visual. En este trabajo, identificamos una Brecha de Percepción crítica en la destilación: los modelos estudiantes frecuentemente imitan la salida textual del profesor mientras atienden a regiones visuales fundamentalmente divergentes, confiando efectivamente en sesgos lingüísticos en lugar de una percepción fundamentada. Para abordar esto, proponemos LaViT, un marco que alinea pensamientos visuales latentes en lugar de incrustaciones estáticas. LaViT obliga al estudiante a reconstruir autoregresivamente la semántica visual y las trayectorias de atención del profesor antes de la generación de texto, empleando un mecanismo de compuerta sensorial curricular para evitar el aprendizaje por atajos. Experimentos exhaustivos demuestran que LaViT mejora significativamente la fundamentación visual, logrando ganancias de hasta +16.9% en tareas de razonamiento complejo y permitiendo que un modelo compacto de 3B supere a variantes de código abierto más grandes y a modelos propietarios como GPT-4o.
English
Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.