Самодистилляция модели мира: обучение моделей мира решению общих задач

Аннотация

Предварительно обученные генераторы видео являются перспективными моделями визуального мира, демонстрирующими эмерджентные способности к решению задач; однако их зависимость от подробных текстовых описаний ограничивает их прямое использование для планирования и принятия решений. Существующие подходы либо делегируют это рассуждение языковым или зрительно-языковым моделям, либо полагаются на контролируемую донастройку с парными видео выполнения задач, что дорого в сборе и трудно масштабируется. Мы предлагаем масштабируемую структуру, которая извлекает способность к решению задач в таких моделях путем сочетания самодистилляции с обучением с подкреплением. Имея немаркированное изображение сцены, зрительно-языковая модель генерирует кандидатную задачу и подробное пошаговое решение. Решение управляет предварительно обученной моделью диффузии видео — Демонстратором; мы дистиллируем его поведение в Исполнителя, управляемого только изображением и кратким описанием задачи. Это переносит знания выполнения от генерации, управляемой подписями, к решению задач по инструкции без специально подобранного контроля задач-видео. Мы дополнительно улучшаем Исполнителя с помощью обучения с подкреплением на основе обратной связи от VLM, используя асимметрию между оценкой того, удовлетворяет ли выбранное видео задаче, и генерацией решения. Эксперименты на нашем предложенном бенчмарке WorldTasks и робототехническом бенчмарке DreamGen показывают, что Исполнитель превосходит Демонстратора по нашему протоколу оценки на основе VLM и конкурентоспособно переносится на робототехнические задачи.

English

Pretrained video generators are promising visual world models that exhibit emergent task-solving abilities; however, their reliance on detailed textual descriptions limits their direct use for planning and decision-making. Existing approaches either outsource this reasoning to language or vision-language models, or rely on supervised fine-tuning with paired task-execution videos, which are costly to collect and difficult to scale. We propose a scalable framework that elicits task-solving ability in such models by combining self-distillation with reinforcement learning. Given an unlabeled scene image, a vision-language model generates a candidate task and a detailed step-by-step solution. The solution conditions a pretrained video diffusion model, the Demonstrator; we distill its behavior into an Executor conditioned only on the image and a short task prompt. This transfers execution knowledge from caption-guided generation to instruction-conditioned task solving without curated task-video supervision. We further improve the Executor with reinforcement learning from VLM feedback, exploiting the asymmetry between judging whether a sampled video satisfies a task and generating the solution. Experiments on our proposed WorldTasks-Benchmark and the DreamGen robotics benchmark show that the Executor surpasses the Demonstrator under our VLM-based evaluation protocol and transfers competitively to robotic tasks.