Ver Antes de Raciocinar: Desacoplando Percepção e Raciocínio para Autodestilação Multimodal On-Policy Resiliente a Atalhos
Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation
June 17, 2026
Autores: Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han
cs.AI
Resumo
A autodestilação on-policy (OPSD) treina um modelo em seus próprios rollouts e utiliza uma cópia congelada para fornecer alvos densos em nível de token, condicionados a um alvo de referência. Isso funciona bem para o raciocínio de LLMs, mas uma extensão direta para modelos de linguagem multimodais de grande escala (MLLMs) pode criar um atalho: o alvo privilegiado pode guiar os tokens principalmente com base no alvo de referência textual, em vez da imagem. Propomos o ViGOS, uma estrutura OPSD visualmente fundamentada para o pós-treinamento de MLLMs. O estudante primeiro escreve uma descrição visual e depois raciocina em direção à resposta final. Para rollouts válidos, um professor de percepção exclusivamente por imagem supervisiona a descrição, enquanto um professor de raciocínio privilegiado supervisiona o raciocínio e a resposta final no mesmo prefixo do estudante. Um professor de referência é utilizado apenas para rollouts inválidos, a fim de recuperar o formato de saída. Em benchmarks de visão-linguagem geral, raciocínio especializado, matemática visual, fundamentação espacial e prior visão-linguagem, o ViGOS mantém os principais benefícios da OPSD e melhora o comportamento fundamentado em imagem em cenários propensos a atalhos.
English
On-policy self-distillation (OPSD) trains a model on its own rollouts and uses a frozen copy to provide dense token-level targets conditioned on a reference target. This works well for LLM reasoning, but a direct extension to multimodal large language models (MLLMs) can create a shortcut: the privileged target may guide tokens mainly based on the text reference target rather than the image. We propose ViGOS, a visually grounded OPSD framework for MLLM post-training. The student first writes a visual description and then reasons toward the final answer. For valid rollouts, an image-only perception teacher supervises the description, while a privileged reasoning teacher supervises the reasoning and final answer on the same student prefix. A reference teacher is used only for invalid rollouts to recover the output format. Across general vision-language, expert reasoning, visual math, spatial grounding, and visual-language-prior benchmarks, ViGOS keeps the main benefits of OPSD and improves image-grounded behavior in shortcut-prone settings.