Eerst Zien, Dan Redeneren: Ontkoppeling van Waarneming en Redenering voor Shortcut-Bestendige Multimodale On-Policy Zelfdistillatie

Samenvatting

On-policy zelfdistillatie (OPSD) traint een model op zijn eigen rollouts en gebruikt een bevroren kopie om dichte token-niveaudoelen te bieden, geconditioneerd op een referentiedoel. Dit werkt goed voor redeneren met LLM's, maar een directe uitbreiding naar multimodale grote taalmodellen (MLLM's) kan een shortcut creëren: het bevoorrechte doel kan tokens voornamelijk sturen op basis van het tekstuele referentiedoel in plaats van de afbeelding. We stellen ViGOS voor, een visueel verankerd OPSD-framework voor post-training van MLLM's. De student schrijft eerst een visuele beschrijving en redeneert vervolgens naar het uiteindelijke antwoord. Voor geldige rollouts houdt een alleen-beeld-perceptiedocent toezicht op de beschrijving, terwijl een bevoorrechte redeneerdocent toezicht houdt op de redenering en het uiteindelijke antwoord op hetzelfde student-prefix. Een referentiedocent wordt alleen gebruikt voor ongeldige rollouts om het uitvoerformaat te herstellen. Over algemene visie-taalbenchmarks, expertredenering, visuele wiskunde, ruimtelijke verankering en visuele-taal-voorafbenchmarks heen, behoudt ViGOS de belangrijkste voordelen van OPSD en verbetert het beeld-verankerd gedrag in shortcut-gevoelige settings.

English

On-policy self-distillation (OPSD) trains a model on its own rollouts and uses a frozen copy to provide dense token-level targets conditioned on a reference target. This works well for LLM reasoning, but a direct extension to multimodal large language models (MLLMs) can create a shortcut: the privileged target may guide tokens mainly based on the text reference target rather than the image. We propose ViGOS, a visually grounded OPSD framework for MLLM post-training. The student first writes a visual description and then reasons toward the final answer. For valid rollouts, an image-only perception teacher supervises the description, while a privileged reasoning teacher supervises the reasoning and final answer on the same student prefix. A reference teacher is used only for invalid rollouts to recover the output format. Across general vision-language, expert reasoning, visual math, spatial grounding, and visual-language-prior benchmarks, ViGOS keeps the main benefits of OPSD and improves image-grounded behavior in shortcut-prone settings.