Repensando o Modelo de Geração de Vídeo para o Mundo Corporificado

Resumo

Os modelos de geração de vídeo avançaram significativamente a inteligência incorporada, desbloqueando novas possibilidades para gerar dados robóticos diversos que capturam percepção, raciocínio e ação no mundo físico. No entanto, sintetizar vídeos de alta qualidade que reflitam com precisão as interações robóticas do mundo real continua sendo um desafio, e a falta de um benchmark padronizado limita comparações justas e o progresso. Para preencher esta lacuna, introduzimos um benchmark robótico abrangente, o RBench, projetado para avaliar a geração de vídeos orientada a robôs em cinco domínios de tarefa e quatro embodiamentos distintos. Ele avalia tanto a correção a nível de tarefa quanto a fidelidade visual por meio de submétricas reproduzíveis, incluindo consistência estrutural, plausibilidade física e completude da ação. A avaliação de 25 modelos representativos destaca deficiências significativas na geração de comportamentos robóticos fisicamente realistas. Além disso, o benchmark alcança um coeficiente de correlação de Spearman de 0,96 com avaliações humanas, validando sua eficácia. Embora o RBench forneça a lente necessária para identificar essas deficiências, alcançar o realismo físico exige ir além da avaliação para abordar a escassez crítica de dados de treinamento de alta qualidade. Motivados por essas percepções, introduzimos um pipeline de dados refinado de quatro estágios, resultando no RoVid-X, o maior conjunto de dados robótico de código aberto para geração de vídeo, com 4 milhões de clipes de vídeo anotados, cobrindo milhares de tarefas e enriquecido com anotações abrangentes de propriedades físicas. Coletivamente, este ecossistema sinérgico de avaliação e dados estabelece uma base robusta para a avaliação rigorosa e o treinamento escalável de modelos de vídeo, acelerando a evolução da IA incorporada em direção à inteligência geral.

English

Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.

Repensando o Modelo de Geração de Vídeo para o Mundo Corporificado

Rethinking Video Generation Model for the Embodied World

Resumo

Support