Dream.exe: Kunnen videogeneratiemodellen dromen van uitvoerbare robotmanipulatie?

Samenvatting

Videogeneratiemodellen hebben indrukwekkende vooruitgang geboekt in het synthetiseren van visueel aantrekkelijke content, maar hun output blijft beperkt tot het virtuele domein. Een logische vraag volgt: hoe goed weerspiegelen deze modellen de fysieke wereld wanneer hun gegenereerde video's het scherm verlaten en de werkelijkheid betreden? Wij stellen robotmanipulatie voor als een concreet, meetbaar venster op deze vraag: als een model de natuurkundige wetten werkelijk heeft geïnternaliseerd, zou de beweging die het toont moeten kunnen worden omgezet in uitvoerbaar robotgedrag. We introduceren Dream.exe, een evaluatiekader dat dit criterium operationaliseert via een video-naar-uitvoering-pijplijn. Op basis van een scèneafbeelding en een taakbeschrijving synthetiseert Dream.exe een manipulatievideo, zet de gegenereerde beweging om in robottrajecten en voert deze uit in een fysicasimulator, wat een verankeringssignaal oplevert dat puur visuele metrieken niet kunnen bieden. Met behulp van deze pijplijn evalueren we 8 modellen, variërend van geavanceerde closed-source generatoren, open-source generatoren tot robotspecifieke modellen. Onze benchmark omvat 101 handmatig samengestelde manipulatietaken op drie niveaus van fysieke complexiteit, gemeten op visuele kwaliteit, trajectgetrouwheid en uitvoeringssucces. Bemoedigend is dat verschillende modellen meetbaar uitvoeringssucces behalen, wat suggereert dat generatieve voorkennis die is geleerd uit internetbrede data al betekenisvolle fysieke kennis codeert. Toch blijkt visuele kwaliteit een slechte voorspeller van uitvoerbaarheid, wat een dimensie van modelcapaciteit blootlegt die standaard visuele evaluaties niet vatten. Dream.exe zal open-source worden gemaakt op https://github.com/showlab/Dream.exe.

English

Video generation models have made impressive strides in synthesizing visually compelling content, yet their outputs remain confined to the virtual domain. A natural question follows: how well do these models reflect the physical world when their generated videos leave the screen and enter reality? We propose robotic manipulation as a concrete, measurable window onto this question: if a model has truly internalized physical laws, the motion it depicts should translate into executable robot behavior. We introduce Dream.exe, an evaluation framework that operationalizes this criterion through a video-to-execution pipeline. Given a scene image and a task description, Dream.exe synthesizes a manipulation video, converts the generated motion into robot trajectories, and executes them in a physics simulator, yielding a grounding signal that purely visual metrics cannot offer. Using this pipeline, we evaluate 8 models spanning frontier closed-source generators, open-source generators, and robot-specific models. Our benchmark covers 101 manually curated manipulation tasks at three levels of physical complexity, measured across visual quality, trajectory fidelity, and execution success. Encouragingly, several models achieve measurable execution success, suggesting that generative priors learned from internet-scale data already encode meaningful physical knowledge. Yet visual quality proves a poor predictor of executability, exposing a dimension of model capability that standard visual evaluations do not capture. Dream.exe will be open-sourced at https://github.com/showlab/Dream.exe.