Видение прежде рассуждения: разделение восприятия и рассуждения для устойчивой к shortcut-ам мультимодальной самодистилляции на политике

Аннотация

On-policy self-distillation (OPSD) обучает модель на ее собственных развертываниях и использует замороженную копию для предоставления плотных целевых значений на уровне токенов, обусловленных эталонной целью. Данный подход хорошо работает для рассуждений LLM, однако прямое расширение на мультимодальные большие языковые модели (MLLM) может создать упрощенный путь: привилегированная цель может направлять токены в основном на основе текстовой эталонной цели, а не изображения. Мы предлагаем ViGOS — визуально обоснованный фреймворк OPSD для пост-тренинга MLLM. Ученик сначала пишет визуальное описание, а затем рассуждает для получения окончательного ответа. Для валидных развертываний учитель восприятия, работающий только с изображением, обучает описание, в то время как привилегированный учитель рассуждения обучает рассуждение и окончательный ответ на том же префиксе ученика. Эталонный учитель используется только для невалидных развертываний для восстановления формата вывода. На тестах по общим задачам понимания языка и изображений, экспертному рассуждению, визуальной математике, пространственной привязке и визуально-языковым априорным знаниям ViGOS сохраняет основные преимущества OPSD и улучшает поведение, основанное на изображениях, в сценариях, склонных к упрощениям.

English

On-policy self-distillation (OPSD) trains a model on its own rollouts and uses a frozen copy to provide dense token-level targets conditioned on a reference target. This works well for LLM reasoning, but a direct extension to multimodal large language models (MLLMs) can create a shortcut: the privileged target may guide tokens mainly based on the text reference target rather than the image. We propose ViGOS, a visually grounded OPSD framework for MLLM post-training. The student first writes a visual description and then reasons toward the final answer. For valid rollouts, an image-only perception teacher supervises the description, while a privileged reasoning teacher supervises the reasoning and final answer on the same student prefix. A reference teacher is used only for invalid rollouts to recover the output format. Across general vision-language, expert reasoning, visual math, spatial grounding, and visual-language-prior benchmarks, ViGOS keeps the main benefits of OPSD and improves image-grounded behavior in shortcut-prone settings.