Dream.exe: Могут ли модели генерации видео мечтать об исполняемых роботизированных манипуляциях?

Аннотация

Модели генерации видео достигли впечатляющих успехов в синтезе визуально убедительного контента, однако их результаты остаются ограничены виртуальной областью. Возникает естественный вопрос: насколько хорошо эти модели отражают физический мир, когда сгенерированные ими видео покидают экран и попадают в реальность? Мы предлагаем роботизированную манипуляцию как конкретное и измеримое окно в этот вопрос: если модель действительно усвоила физические законы, то изображаемое ею движение должно преобразовываться в выполнимые действия робота. Мы представляем Dream.exe — оценочный фреймворк, который операционализирует данный критерий через конвейер от видео к выполнению. Получив изображение сцены и описание задачи, Dream.exe синтезирует манипуляционное видео, преобразует сгенерированное движение в траектории робота и выполняет их в симуляторе физики, что дает сигнал привязки к реальности, недоступный чисто визуальным метрикам. С помощью этого конвейера мы оцениваем 8 моделей, охватывающих передовые генераторы с закрытым исходным кодом, генераторы с открытым исходным кодом и специализированные для роботов модели. Наш бенчмарк включает 101 вручную отобранную задачу манипуляции на трех уровнях физической сложности, оцениваемую по визуальному качеству, точности траектории и успешности выполнения. Обнадеживает то, что несколько моделей демонстрируют измеримую успешность выполнения, что предполагает, что генеративные априорные знания, полученные из данных интернет-масштаба, уже кодируют значимые физические знания. Однако визуальное качество оказывается плохим предиктором выполнимости, раскрывая измерение возможностей модели, которое не улавливается стандартными визуальными оценками. Dream.exe будет опубликован в открытом доступе по адресу https://github.com/showlab/Dream.exe.

English

Video generation models have made impressive strides in synthesizing visually compelling content, yet their outputs remain confined to the virtual domain. A natural question follows: how well do these models reflect the physical world when their generated videos leave the screen and enter reality? We propose robotic manipulation as a concrete, measurable window onto this question: if a model has truly internalized physical laws, the motion it depicts should translate into executable robot behavior. We introduce Dream.exe, an evaluation framework that operationalizes this criterion through a video-to-execution pipeline. Given a scene image and a task description, Dream.exe synthesizes a manipulation video, converts the generated motion into robot trajectories, and executes them in a physics simulator, yielding a grounding signal that purely visual metrics cannot offer. Using this pipeline, we evaluate 8 models spanning frontier closed-source generators, open-source generators, and robot-specific models. Our benchmark covers 101 manually curated manipulation tasks at three levels of physical complexity, measured across visual quality, trajectory fidelity, and execution success. Encouragingly, several models achieve measurable execution success, suggesting that generative priors learned from internet-scale data already encode meaningful physical knowledge. Yet visual quality proves a poor predictor of executability, exposing a dimension of model capability that standard visual evaluations do not capture. Dream.exe will be open-sourced at https://github.com/showlab/Dream.exe.