Voir avant de raisonner : Découpler la perception et le raisonnement pour une auto-distillation multimodale sur politique résistante aux raccourcis

Résumé

L'auto-distillation sur politique (OPSD) entraîne un modèle sur ses propres rollouts et utilise une copie gelée pour fournir des cibles denses au niveau des tokens, conditionnées par une cible de référence. Cette approche fonctionne bien pour le raisonnement des LLM, mais une extension directe aux modèles de langage multimodaux de grande taille (MLLM) peut créer un raccourci : la cible privilégiée risque de guider les tokens principalement sur la base de la cible de référence textuelle plutôt que de l'image. Nous proposons ViGOS, un cadre OPSD ancré visuellement pour le post-entraînement des MLLM. L'étudiant commence par rédiger une description visuelle, puis raisonne pour parvenir à la réponse finale. Pour les rollouts valides, un enseignant perceptif uniquement basé sur l'image supervise la description, tandis qu'un enseignant privilégié pour le raisonnement supervise le raisonnement et la réponse finale sur le même préfixe de l'étudiant. Un enseignant de référence n'est utilisé que pour les rollouts invalides afin de rétablir le format de sortie. Sur les benchmarks de vision-langage général, de raisonnement expert, de mathématiques visuelles, d'ancrage spatial et de priorité visuelle-langage, ViGOS conserve les principaux avantages de l'OPSD et améliore le comportement ancré sur l'image dans les contextes sujets aux raccourcis.

English

On-policy self-distillation (OPSD) trains a model on its own rollouts and uses a frozen copy to provide dense token-level targets conditioned on a reference target. This works well for LLM reasoning, but a direct extension to multimodal large language models (MLLMs) can create a shortcut: the privileged target may guide tokens mainly based on the text reference target rather than the image. We propose ViGOS, a visually grounded OPSD framework for MLLM post-training. The student first writes a visual description and then reasons toward the final answer. For valid rollouts, an image-only perception teacher supervises the description, while a privileged reasoning teacher supervises the reasoning and final answer on the same student prefix. A reference teacher is used only for invalid rollouts to recover the output format. Across general vision-language, expert reasoning, visual math, spatial grounding, and visual-language-prior benchmarks, ViGOS keeps the main benefits of OPSD and improves image-grounded behavior in shortcut-prone settings.