LaViT: Allineamento di Pensieri Visivi Latenti per il Ragionamento Multi-modale

Abstract

L'attuale ragionamento multimodale latente si basa spesso su supervisione esterna (ad esempio, immagini ausiliarie), ignorando le dinamiche intrinseche dell'attenzione visiva. In questo lavoro, identifichiamo un **Divario Percettivo** critico nella distillazione: i modelli studente imitano frequentemente l'output testuale di un insegnante mentre si concentrano su regioni visive fondamentalmente divergenti, affidandosi di fatto su prior linguistiche piuttosto che su una percezione fondata. Per colmare questa lacuna, proponiamo **LaViT**, un framework che allinea i **pensieri visivi latenti** anziché embedding statici. LaViT costringe lo studente a ricostruire in modo autoregressivo la semantica visiva e le traiettorie attentive dell'insegnante prima della generazione del testo, impiegando un meccanismo di **cancellazione sensoriale curriculare** per prevenire l'apprendimento per scorciatoie. Esperimenti estesi mostrano che LaViT migliora significativamente il grounding visivo, raggiungendo guadagni fino al +16,9% su compiti di ragionamento complesso e consentendo a un modello compatto da 3B di superare varianti open-source più grandi e modelli proprietari come GPT-4o.

English

Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.

LaViT: Allineamento di Pensieri Visivi Latenti per il Ragionamento Multi-modale

LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

Abstract

Support