Dream.exe: Können Videogenerierungsmodelle von ausführbarer Roboter-Manipulation träumen?

Zusammenfassung

Videogenerierungsmodelle haben beeindruckende Fortschritte bei der Synthese visuell ansprechender Inhalte erzielt, doch ihre Ausgaben bleiben auf den virtuellen Bereich beschränkt. Eine naheliegende Frage schließt sich an: Wie gut spiegeln diese Modelle die physikalische Welt wider, wenn ihre generierten Videos den Bildschirm verlassen und in die Realität eintreten? Wir schlagen robotergestützte Manipulation als ein konkretes, messbares Fenster zu dieser Frage vor: Wenn ein Modell physikalische Gesetze wirklich verinnerlicht hat, sollte die dargestellte Bewegung in ausführbare Roboterhandlungen umsetzbar sein. Wir führen Dream.exe ein, einen Bewertungsrahmen, der dieses Kriterium durch eine Video-zu-Ausführungs-Pipeline operationalisiert. Ausgehend von einem Szenenbild und einer Aufgabenbeschreibung synthetisiert Dream.exe ein Manipulationsvideo, wandelt die generierte Bewegung in Roboterbahnen um und führt diese in einem Physiksimulator aus, wodurch ein Fundierungssignal entsteht, das rein visuelle Metriken nicht bieten können. Mit dieser Pipeline bewerten wir 8 Modelle, die führende Closed-Source-Generatoren, Open-Source-Generatoren und roboterspezifische Modelle umfassen. Unser Benchmark umfasst 101 manuell kuratierte Manipulationsaufgaben auf drei Stufen physikalischer Komplexität, gemessen an visueller Qualität, Trajektorien-Treue und Ausführungserfolg. Erfreulicherweise erzielen mehrere Modelle messbare Ausführungserfolge, was darauf hindeutet, dass aus Internetdaten in großem Maßstab erlernte generative Prioris bereits bedeutsames physikalisches Wissen kodieren. Dennoch erweist sich die visuelle Qualität als schlechter Prädiktor für die Ausführbarkeit und offenbart eine Dimension der Modellfähigkeit, die von Standard-Visualisierungsbewertungen nicht erfasst wird. Dream.exe wird unter https://github.com/showlab/Dream.exe als Open Source verfügbar sein.

English

Video generation models have made impressive strides in synthesizing visually compelling content, yet their outputs remain confined to the virtual domain. A natural question follows: how well do these models reflect the physical world when their generated videos leave the screen and enter reality? We propose robotic manipulation as a concrete, measurable window onto this question: if a model has truly internalized physical laws, the motion it depicts should translate into executable robot behavior. We introduce Dream.exe, an evaluation framework that operationalizes this criterion through a video-to-execution pipeline. Given a scene image and a task description, Dream.exe synthesizes a manipulation video, converts the generated motion into robot trajectories, and executes them in a physics simulator, yielding a grounding signal that purely visual metrics cannot offer. Using this pipeline, we evaluate 8 models spanning frontier closed-source generators, open-source generators, and robot-specific models. Our benchmark covers 101 manually curated manipulation tasks at three levels of physical complexity, measured across visual quality, trajectory fidelity, and execution success. Encouragingly, several models achieve measurable execution success, suggesting that generative priors learned from internet-scale data already encode meaningful physical knowledge. Yet visual quality proves a poor predictor of executability, exposing a dimension of model capability that standard visual evaluations do not capture. Dream.exe will be open-sourced at https://github.com/showlab/Dream.exe.