Dream.exe : Les modèles de génération vidéo peuvent-ils rêver de manipulations robotiques exécutables ?

Résumé

Les modèles de génération vidéo ont réalisé des progrès impressionnants dans la synthèse de contenus visuellement convaincants, mais leurs résultats restent confinés au domaine virtuel. Une question naturelle s’ensuit : dans quelle mesure ces modèles reflètent-ils le monde physique lorsque leurs vidéos générées quittent l’écran pour entrer dans la réalité ? Nous proposons la manipulation robotique comme une fenêtre concrète et mesurable sur cette question : si un modèle a véritablement internalisé les lois physiques, le mouvement qu’il représente devrait se traduire en un comportement robotique exécutable. Nous introduisons Dream.exe, un cadre d’évaluation qui opérationnalise ce critère via un pipeline vidéo-vers-exécution. À partir d’une image de scène et d’une description de tâche, Dream.exe synthétise une vidéo de manipulation, convertit le mouvement généré en trajectoires robotiques et les exécute dans un simulateur physique, produisant un signal d’ancrage que les métriques purement visuelles ne peuvent offrir. En utilisant ce pipeline, nous évaluons 8 modèles couvrant les générateurs propriétaires de pointe, les générateurs open-source et les modèles spécifiques aux robots. Notre benchmark comprend 101 tâches de manipulation soigneusement sélectionnées à trois niveaux de complexité physique, mesurées en termes de qualité visuelle, de fidélité des trajectoires et de succès d’exécution. Fait encourageant, plusieurs modèles obtiennent un succès d’exécution mesurable, suggérant que les priors génératifs appris à partir de données à l’échelle d’Internet codent déjà des connaissances physiques significatives. Cependant, la qualité visuelle se révèle un mauvais prédicteur de l’exécutabilité, exposant ainsi une dimension de capacité des modèles que les évaluations visuelles standard ne capturent pas. Dream.exe sera open-sourcé à l’adresse https://github.com/showlab/Dream.exe.

English

Video generation models have made impressive strides in synthesizing visually compelling content, yet their outputs remain confined to the virtual domain. A natural question follows: how well do these models reflect the physical world when their generated videos leave the screen and enter reality? We propose robotic manipulation as a concrete, measurable window onto this question: if a model has truly internalized physical laws, the motion it depicts should translate into executable robot behavior. We introduce Dream.exe, an evaluation framework that operationalizes this criterion through a video-to-execution pipeline. Given a scene image and a task description, Dream.exe synthesizes a manipulation video, converts the generated motion into robot trajectories, and executes them in a physics simulator, yielding a grounding signal that purely visual metrics cannot offer. Using this pipeline, we evaluate 8 models spanning frontier closed-source generators, open-source generators, and robot-specific models. Our benchmark covers 101 manually curated manipulation tasks at three levels of physical complexity, measured across visual quality, trajectory fidelity, and execution success. Encouragingly, several models achieve measurable execution success, suggesting that generative priors learned from internet-scale data already encode meaningful physical knowledge. Yet visual quality proves a poor predictor of executability, exposing a dimension of model capability that standard visual evaluations do not capture. Dream.exe will be open-sourced at https://github.com/showlab/Dream.exe.