Weltmodell-Selbstdestillation: Training von Weltmodellen zur Lösung allgemeiner Aufgaben

Zusammenfassung

Vortrainierte Videogeneratoren sind vielversprechende visuelle Weltmodelle, die emergierende Fähigkeiten zur Aufgabenlösung aufweisen; ihre Abhängigkeit von detaillierten Textbeschreibungen schränkt jedoch ihren direkten Einsatz für Planung und Entscheidungsfindung ein. Bestehende Ansätze verlagern diese Schlussfolgerung entweder auf Sprach- oder Vision-Language-Modelle oder basieren auf überwachtem Feintuning mit gepaarten aufgabenbezogenen Ausführungsvideos, deren Erhebung kostspielig und deren Skalierung schwierig ist. Wir schlagen ein skalierbares Framework vor, das die Aufgabenlösungsfähigkeit solcher Modelle durch die Kombination von Selbstdestillation und bestärkendem Lernen herausfordert. Ausgehend von einem unbeschrifteten Szenenbild generiert ein Vision-Language-Modell eine Kandidatenaufgabe und eine detaillierte Schritt-für-Schritt-Lösung. Die Lösung konditioniert einen vortrainierten Videodiffusionsmodell, den Demonstrator; wir destillieren sein Verhalten in einen Executor, der nur durch das Bild und einen kurzen Aufgabenprompt konditioniert wird. Dadurch wird Ausführungswissen von beschriftungsgesteuerter Generierung auf instruktionskonditionierte Aufgabenlösung übertragen, ohne dass kuratierte Aufgaben-Video-Supervision erforderlich ist. Wir verbessern den Executor weiter durch bestärkendes Lernen aus VLM-Rückmeldungen und nutzen dabei die Asymmetrie zwischen der Beurteilung, ob ein abgetastetes Video eine Aufgabe erfüllt, und der Generierung der Lösung. Experimente mit unserem WorldTasks-Benchmark und dem DreamGen-Robotik-Benchmark zeigen, dass der Executor den Demonstrator unter unserem VLM-basierten Evaluationsprotokoll übertrifft und sich konkurrenzfähig auf robotische Aufgaben übertragen lässt.

English

Pretrained video generators are promising visual world models that exhibit emergent task-solving abilities; however, their reliance on detailed textual descriptions limits their direct use for planning and decision-making. Existing approaches either outsource this reasoning to language or vision-language models, or rely on supervised fine-tuning with paired task-execution videos, which are costly to collect and difficult to scale. We propose a scalable framework that elicits task-solving ability in such models by combining self-distillation with reinforcement learning. Given an unlabeled scene image, a vision-language model generates a candidate task and a detailed step-by-step solution. The solution conditions a pretrained video diffusion model, the Demonstrator; we distill its behavior into an Executor conditioned only on the image and a short task prompt. This transfers execution knowledge from caption-guided generation to instruction-conditioned task solving without curated task-video supervision. We further improve the Executor with reinforcement learning from VLM feedback, exploiting the asymmetry between judging whether a sampled video satisfies a task and generating the solution. Experiments on our proposed WorldTasks-Benchmark and the DreamGen robotics benchmark show that the Executor surpasses the Demonstrator under our VLM-based evaluation protocol and transfers competitively to robotic tasks.