Zelfdistillatie van Wereldmodellen: Het Trainen van Wereldmodellen om Algemene Taken op te Lossen

Samenvatting

Voorgetrainde videogeneratoren zijn veelbelovende visuele wereldmodellen die opkomende taakoplossende vermogens vertonen; hun afhankelijkheid van gedetailleerde tekstuele beschrijvingen beperkt echter hun directe gebruik voor planning en besluitvorming. Bestaande benaderingen besteden deze redenering ofwel uit aan taal- of visie-taalmodelen, of vertrouwen op gesuperviseerde fijnafstemming met gepaarde taakuitvoeringsvideo's, die kostbaar zijn om te verzamelen en moeilijk op te schalen. Wij stellen een schaalbaar raamwerk voor dat taakoplossend vermogen in dergelijke modellen ontlokt door zelfdestillatie te combineren met versterkend leren. Gegeven een ongelabelde scèneafbeelding genereert een visie-taalmodel een kandidaattaak en een gedetailleerde stapsgewijze oplossing. De oplossing conditioneert een voorgetraind videodiffusiemodel, de Demonstrator; we destilleren zijn gedrag in een Executor die alleen geconditioneerd is op de afbeelding en een korte taakprompt. Dit brengt uitvoeringskennis over van bijschriftgestuurde generatie naar instructiegeconditioneerd taakoplossen zonder samengesteld taak-videotoezicht. We verbeteren de Executor verder met versterkend leren van VLM-feedback, waarbij we gebruikmaken van de asymmetrie tussen het beoordelen of een gesamplede video aan een taak voldoet en het genereren van de oplossing. Experimenten op onze voorgestelde WorldTasks-Benchmark en de DreamGen-robotica-benchmark tonen aan dat de Executor de Demonstrator overtreft onder ons VLM-gebaseerde evaluatieprotocol en concurrerend overbrengt naar robotica-taken.

English

Pretrained video generators are promising visual world models that exhibit emergent task-solving abilities; however, their reliance on detailed textual descriptions limits their direct use for planning and decision-making. Existing approaches either outsource this reasoning to language or vision-language models, or rely on supervised fine-tuning with paired task-execution videos, which are costly to collect and difficult to scale. We propose a scalable framework that elicits task-solving ability in such models by combining self-distillation with reinforcement learning. Given an unlabeled scene image, a vision-language model generates a candidate task and a detailed step-by-step solution. The solution conditions a pretrained video diffusion model, the Demonstrator; we distill its behavior into an Executor conditioned only on the image and a short task prompt. This transfers execution knowledge from caption-guided generation to instruction-conditioned task solving without curated task-video supervision. We further improve the Executor with reinforcement learning from VLM feedback, exploiting the asymmetry between judging whether a sampled video satisfies a task and generating the solution. Experiments on our proposed WorldTasks-Benchmark and the DreamGen robotics benchmark show that the Executor surpasses the Demonstrator under our VLM-based evaluation protocol and transfers competitively to robotic tasks.