Dream.exe: Podem os Modelos de Geração de Vídeo Sonhar com Manipulação Robótica Executável?

Resumo

Modelos de geração de vídeo têm avançado de forma impressionante na síntese de conteúdo visualmente atraente, no entanto, seus resultados permanecem confinados ao domínio virtual. Surge então uma questão natural: quão bem esses modelos refletem o mundo físico quando seus vídeos gerados deixam a tela e entram na realidade? Propomos a manipulação robótica como uma janela concreta e mensurável para essa questão: se um modelo realmente internalizou leis físicas, o movimento que ele retrata deve se traduzir em comportamento robótico executável. Apresentamos o Dream.exe, uma estrutura de avaliação que operacionaliza esse critério por meio de um pipeline de vídeo-para-execução. Dada uma imagem de cena e uma descrição de tarefa, o Dream.exe sintetiza um vídeo de manipação, converte o movimento gerado em trajetórias robóticas e as executa em um simulador físico, produzindo um sinal de ancoragem que métricas puramente visuais não podem oferecer. Usando esse pipeline, avaliamos 8 modelos que abrangem geradores de código fechado de ponta, geradores de código aberto e modelos específicos para robótica. Nosso benchmark cobre 101 tarefas de manipulação curadas manualmente em três níveis de complexidade física, medidas em termos de qualidade visual, fidelidade de trajetória e sucesso de execução. De forma encorajadora, vários modelos alcançam sucesso de execução mensurável, sugerindo que os priores generativos aprendidos a partir de dados em escala da internet já codificam conhecimento físico significativo. No entanto, a qualidade visual se mostra um preditor fraco de executabilidade, expondo uma dimensão da capacidade dos modelos que as avaliações visuais padrão não capturam. O Dream.exe será disponibilizado como código aberto em https://github.com/showlab/Dream.exe.

English

Video generation models have made impressive strides in synthesizing visually compelling content, yet their outputs remain confined to the virtual domain. A natural question follows: how well do these models reflect the physical world when their generated videos leave the screen and enter reality? We propose robotic manipulation as a concrete, measurable window onto this question: if a model has truly internalized physical laws, the motion it depicts should translate into executable robot behavior. We introduce Dream.exe, an evaluation framework that operationalizes this criterion through a video-to-execution pipeline. Given a scene image and a task description, Dream.exe synthesizes a manipulation video, converts the generated motion into robot trajectories, and executes them in a physics simulator, yielding a grounding signal that purely visual metrics cannot offer. Using this pipeline, we evaluate 8 models spanning frontier closed-source generators, open-source generators, and robot-specific models. Our benchmark covers 101 manually curated manipulation tasks at three levels of physical complexity, measured across visual quality, trajectory fidelity, and execution success. Encouragingly, several models achieve measurable execution success, suggesting that generative priors learned from internet-scale data already encode meaningful physical knowledge. Yet visual quality proves a poor predictor of executability, exposing a dimension of model capability that standard visual evaluations do not capture. Dream.exe will be open-sourced at https://github.com/showlab/Dream.exe.