LaViT: Het Uitlijnen van Latente Visuele Denkprocessen voor Multimodaal Redeneren

Samenvatting

Huidige multimodale latente redeneerprocessen zijn vaak afhankelijk van externe supervisie (bijvoorbeeld hulpafbeeldingen), waarbij de intrinsieke dynamiek van visuele aandacht wordt genegeerd. In dit werk identificeren we een kritieke *Perceptiekloof* in distillatie: studentmodellen bootsen vaak de tekstuele output van een leraarmodel na, terwijl ze zich richten op fundamenteel verschillende visuele regio's, waardoor ze effectief steunen op taalpriors in plaats van gegronde perceptie. Om deze kloof te overbruggen, stellen we LaViT voor, een raamwerk dat latente visuele gedachten uitlijnt in plaats van statische embeddings. LaViT dwingt het studentmodel om autoregressief de visuele semantiek en aandachttrajecten van de leraar te reconstrueren vóór tekstgeneratie, waarbij een curriculum *sensory gating*-mechanisme wordt ingezet om kortsluiting in het leerproces te voorkomen. Uitgebreide experimenten tonen aan dat LaViT de visuele verankering aanzienlijk verbetert, met verbeteringen tot +16,9% op complexe redeneertaken, en dat een compact 3B-model grotere open-source varianten en propriëtaire modellen zoals GPT-4o kan overtreffen.

English

Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.

LaViT: Het Uitlijnen van Latente Visuele Denkprocessen voor Multimodaal Redeneren

LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

Samenvatting

Support