Auto-distillation de modèles du monde : entraîner des modèles du monde à résoudre des tâches générales

Résumé

Les modèles génératifs vidéo pré-entraînés sont des modèles de mondes visuels prometteurs qui manifestent des capacités émergentes de résolution de tâches ; cependant, leur dépendance à des descriptions textuelles détaillées limite leur utilisation directe pour la planification et la prise de décision. Les approches existantes soit externalisent ce raisonnement à des modèles de langage ou de vision-langage, soit reposent sur un ajustement supervisé avec des vidéos d’exécution de tâches appariées, lesquelles sont coûteuses à collecter et difficiles à généraliser. Nous proposons un cadre scalable qui suscite la capacité de résolution de tâches dans ces modèles en combinant auto-distillation et apprentissage par renforcement. Étant donné une image de scène non annotée, un modèle vision-langage génère une tâche candidate et une solution détaillée étape par étape. La solution conditionne un modèle de diffusion vidéo pré-entraîné, le Demonstrator ; nous distillons son comportement dans un Executor conditionné uniquement par l’image et une courte instruction de tâche. Cela transfère la connaissance d’exécution, d’une génération guidée par légende à une résolution de tâche conditionnée par instruction, sans supervision parvidéos de tâches appariées. Nous améliorons ensuite l’Executor par apprentissage par renforcement à partir des retours du VLM, exploitant l’asymétrie entre juger si une vidéo échantillonnée satisfait une tâche et générer la solution. Les expériences sur notre WorldTasks-Benchmark et le benchmark robotique DreamGen montrent que l’Executor surpasse le Demonstrator selon notre protocole d’évaluation basé sur le VLM et se transfère de manière compétitive à des tâches robotiques.

English

Pretrained video generators are promising visual world models that exhibit emergent task-solving abilities; however, their reliance on detailed textual descriptions limits their direct use for planning and decision-making. Existing approaches either outsource this reasoning to language or vision-language models, or rely on supervised fine-tuning with paired task-execution videos, which are costly to collect and difficult to scale. We propose a scalable framework that elicits task-solving ability in such models by combining self-distillation with reinforcement learning. Given an unlabeled scene image, a vision-language model generates a candidate task and a detailed step-by-step solution. The solution conditions a pretrained video diffusion model, the Demonstrator; we distill its behavior into an Executor conditioned only on the image and a short task prompt. This transfers execution knowledge from caption-guided generation to instruction-conditioned task solving without curated task-video supervision. We further improve the Executor with reinforcement learning from VLM feedback, exploiting the asymmetry between judging whether a sampled video satisfies a task and generating the solution. Experiments on our proposed WorldTasks-Benchmark and the DreamGen robotics benchmark show that the Executor surpasses the Demonstrator under our VLM-based evaluation protocol and transfers competitively to robotic tasks.