Autodestilación de Modelos del Mundo: Entrenando Modelos del Mundo para Resolver Tareas Generales

Resumen

Los generadores de video preentrenados son modelos prometedores del mundo visual que exhiben habilidades emergentes para resolver tareas; sin embargo, su dependencia de descripciones textuales detalladas limita su uso directo para la planificación y la toma de decisiones. Los enfoques existentes externalizan este razonamiento a modelos de lenguaje o de lenguaje-visión, o se basan en un ajuste fino supervisado con pares de videos de ejecución de tareas, cuya recolección es costosa y difícil de escalar. Proponemos un marco escalable que desencadena la capacidad de resolver tareas en dichos modelos mediante la combinación de autodestilación con aprendizaje por refuerzo. Dada una imagen de escena no etiquetada, un modelo de lenguaje-visión genera una tarea candidata y una solución detallada paso a paso. La solución condiciona un modelo de difusión de video preentrenado, el Demostrador; destilamos su comportamiento en un Ejecutor condicionado únicamente por la imagen y una breve indicación de tarea. Esto transfiere el conocimiento de ejecución desde la generación guiada por descripciones a la resolución de tareas condicionada por instrucciones, sin necesidad de supervisión de video con tareas curadas. Mejoramos aún más el Ejecutor con aprendizaje por refuerzo a partir de la retroalimentación del VLM (modelo de lenguaje-visión), aprovechando la asimetría entre juzgar si un video muestreado satisface una tarea y generar la solución. Los experimentos en nuestro WorldTasks-Benchmark propuesto y en el benchmark de robótica DreamGen muestran que el Ejecutor supera al Demostrador bajo nuestro protocolo de evaluación basado en VLM y se transfiere competitivamente a tareas robóticas.

English

Pretrained video generators are promising visual world models that exhibit emergent task-solving abilities; however, their reliance on detailed textual descriptions limits their direct use for planning and decision-making. Existing approaches either outsource this reasoning to language or vision-language models, or rely on supervised fine-tuning with paired task-execution videos, which are costly to collect and difficult to scale. We propose a scalable framework that elicits task-solving ability in such models by combining self-distillation with reinforcement learning. Given an unlabeled scene image, a vision-language model generates a candidate task and a detailed step-by-step solution. The solution conditions a pretrained video diffusion model, the Demonstrator; we distill its behavior into an Executor conditioned only on the image and a short task prompt. This transfers execution knowledge from caption-guided generation to instruction-conditioned task solving without curated task-video supervision. We further improve the Executor with reinforcement learning from VLM feedback, exploiting the asymmetry between judging whether a sampled video satisfies a task and generating the solution. Experiments on our proposed WorldTasks-Benchmark and the DreamGen robotics benchmark show that the Executor surpasses the Demonstrator under our VLM-based evaluation protocol and transfers competitively to robotic tasks.