Ver antes de razonar: Desacoplamiento de percepción y razonamiento para autodestilación multimodal on-policy resistente a atajos

Resumen

El auto-destilación on-policy (OPSD) entrena un modelo en sus propios rollouts y emplea una copia congelada para proporcionar objetivos densos a nivel de token condicionados a un objetivo de referencia. Este método funciona bien para el razonamiento de modelos de lenguaje grandes (LLMs), pero una extensión directa a modelos de lenguaje grandes multimodales (MLLMs) puede crear un atajo: el objetivo privilegiado podría guiar los tokens principalmente a partir del objetivo de referencia textual y no de la imagen. Proponemos ViGOS, un marco OPSD con anclaje visual para el post-entrenamiento de MLLMs. El estudiante primero escribe una descripción visual y luego razona hacia la respuesta final. Para rollouts válidos, un maestro de percepción solo de imagen supervisa la descripción, mientras que un maestro de razonamiento privilegiado supervisa el razonamiento y la respuesta final sobre el mismo prefijo del estudiante. Un maestro de referencia se utiliza únicamente para rollouts inválidos con el fin de recuperar el formato de salida. En puntos de referencia de visión y lenguaje general, razonamiento experto, matemáticas visuales, anclaje espacial y prioridades de lenguaje visual, ViGOS conserva los principales beneficios de OPSD y mejora el comportamiento anclado en imágenes en entornos propensos a atajos.

English

On-policy self-distillation (OPSD) trains a model on its own rollouts and uses a frozen copy to provide dense token-level targets conditioned on a reference target. This works well for LLM reasoning, but a direct extension to multimodal large language models (MLLMs) can create a shortcut: the privileged target may guide tokens mainly based on the text reference target rather than the image. We propose ViGOS, a visually grounded OPSD framework for MLLM post-training. The student first writes a visual description and then reasons toward the final answer. For valid rollouts, an image-only perception teacher supervises the description, while a privileged reasoning teacher supervises the reasoning and final answer on the same student prefix. A reference teacher is used only for invalid rollouts to recover the output format. Across general vision-language, expert reasoning, visual math, spatial grounding, and visual-language-prior benchmarks, ViGOS keeps the main benefits of OPSD and improves image-grounded behavior in shortcut-prone settings.