Sehen vor dem Denken: Entkopplung von Wahrnehmung und Schlussfolgerung für kurzschlussresistente multimodale On-Policy-Selbstdestillation

Zusammenfassung

Die On-Policy-Selbstdestillation (OPSD) trainiert ein Modell auf seinen eigenen Rollouts und verwendet eine eingefrorene Kopie, um dichte Token-Zielgrößen basierend auf einem Referenzziel bereitzustellen. Dies funktioniert gut für das Reasoning von LLMs, aber eine direkte Erweiterung auf multimodale große Sprachmodelle (MLLMs) kann einen Shortcut erzeugen: Das privilegierte Ziel könnte Tokens hauptsächlich basierend auf dem Textreferenzziel statt auf dem Bild lenken. Wir schlagen ViGOS vor, ein visuell verankertes OPSD-Framework für das Nachtraining von MLLMs. Der Schüler schreibt zunächst eine visuelle Beschreibung und folgert dann auf die endgültige Antwort. Für gültige Rollouts überwacht ein rein bildbasierter Wahrnehmungslehrer die Beschreibung, während ein privilegierter Reasoning-Lehrer das Reasoning und die endgültige Antwort auf demselben Schüler-Präfix überwacht. Ein Referenzlehrer wird nur für ungültige Rollouts verwendet, um das Ausgabeformat wiederherzustellen. In Benchmarks zu allgemeinem Sprach-Sehen, Experten-Reasoning, visueller Mathematik, räumlicher Verankerung und visuell-sprachlichen Prioritaten behält ViGOS die Hauptvorteile von OPSD und verbessert das bildgestützte Verhalten in shortcut-anfälligen Umgebungen.

English

On-policy self-distillation (OPSD) trains a model on its own rollouts and uses a frozen copy to provide dense token-level targets conditioned on a reference target. This works well for LLM reasoning, but a direct extension to multimodal large language models (MLLMs) can create a shortcut: the privileged target may guide tokens mainly based on the text reference target rather than the image. We propose ViGOS, a visually grounded OPSD framework for MLLM post-training. The student first writes a visual description and then reasons toward the final answer. For valid rollouts, an image-only perception teacher supervises the description, while a privileged reasoning teacher supervises the reasoning and final answer on the same student prefix. A reference teacher is used only for invalid rollouts to recover the output format. Across general vision-language, expert reasoning, visual math, spatial grounding, and visual-language-prior benchmarks, ViGOS keeps the main benefits of OPSD and improves image-grounded behavior in shortcut-prone settings.