LaViT: Согласование латентных визуальных представлений для мультимодального анализа
LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
January 15, 2026
Авторы: Linquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung
cs.AI
Аннотация
Современные многомодальные методы латентного рассуждения часто полагаются на внешние данные (например, вспомогательные изображения), игнорируя внутреннюю динамику визуального внимания. В данной работе мы выявляем критический **Разрыв Восприятия** при дистилляции: студенческие модели часто имитируют текстовый вывод учителя, фокусируясь при этом на принципиально различных визуальных областях, фактически опираясь на языковые априорные предположения, а не на обоснованное восприятие. Для преодоления этого разрыва мы предлагаем **LaViT** — фреймворк, выравнивающий латентные визуальные представления, а не статические эмбеддинги. LaViT заставляет студенческую модель авторегрессивно восстанавливать визуальную семантику и траектории внимания учителя до генерации текста, используя механизм кумулятивного сенсорного гейтирования для предотвращения поиска кратчайших путей обучения. Многочисленные эксперименты показывают, что LaViT значительно улучшает визуальную обоснованность, демонстрируя прирост до +16,9% в сложных задачах рассуждения и позволяя компактной модели на 3 млрд параметров превзойти более крупные открытые варианты, а также проприетарные модели, такие как GPT-4o.
English
Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.