Avaliação de Políticas de Robótica Gemini em um Simulador Mundo Veo

Resumo

Os modelos generativos de mundos possuem um potencial significativo para simular interações com políticas visuomotoras em ambientes variados. Modelos de vídeo de fronteira podem permitir a geração de observações realistas e interações ambientais de forma escalável e geral. No entanto, o uso de modelos de vídeo em robótica tem sido limitado principalmente a avaliações dentro da distribuição, ou seja, cenários semelhantes aos utilizados para treinar a política ou para ajustar o modelo de vídeo base. Neste relatório, demonstramos que os modelos de vídeo podem ser utilizados para todo o espectro de casos de uso de avaliação de políticas em robótica: desde a avaliação do desempenho nominal até a generalização fora da distribuição (OOD), e a análise da segurança física e semântica. Introduzimos um sistema de avaliação generativa construído sobre um modelo de fundação de vídeo de fronteira (Veo). O sistema é otimizado para suportar o condicionamento por ações robóticas e a consistência multi-visão, integrando ao mesmo tempo edição generativa de imagens e conclusão multi-visão para sintetizar variações realistas de cenas do mundo real ao longo de múltiplos eixos de generalização. Demonstramos que o sistema preserva as capacidades base do modelo de vídeo, permitindo a simulação precisa de cenas que foram editadas para incluir novos objetos de interação, novos fundos visuais e novos objetos de distração. Essa fidelidade permite prever com precisão o desempenho relativo de diferentes políticas tanto em condições nominais quanto OOD, determinar o impacto relativo de diferentes eixos de generalização no desempenho da política e realizar *red teaming* de políticas para expor comportamentos que violam restrições de segurança física ou semântica. Validamos essas capacidades por meio de mais de 1600 avaliações no mundo real de oito *checkpoints* de políticas da Gemini Robotics e cinco tarefas para um manipulador bimanual.

English

Generative world models hold significant potential for simulating interactions with visuomotor policies in varied environments. Frontier video models can enable generation of realistic observations and environment interactions in a scalable and general manner. However, the use of video models in robotics has been limited primarily to in-distribution evaluations, i.e., scenarios that are similar to ones used to train the policy or fine-tune the base video model. In this report, we demonstrate that video models can be used for the entire spectrum of policy evaluation use cases in robotics: from assessing nominal performance to out-of-distribution (OOD) generalization, and probing physical and semantic safety. We introduce a generative evaluation system built upon a frontier video foundation model (Veo). The system is optimized to support robot action conditioning and multi-view consistency, while integrating generative image-editing and multi-view completion to synthesize realistic variations of real-world scenes along multiple axes of generalization. We demonstrate that the system preserves the base capabilities of the video model to enable accurate simulation of scenes that have been edited to include novel interaction objects, novel visual backgrounds, and novel distractor objects. This fidelity enables accurately predicting the relative performance of different policies in both nominal and OOD conditions, determining the relative impact of different axes of generalization on policy performance, and performing red teaming of policies to expose behaviors that violate physical or semantic safety constraints. We validate these capabilities through 1600+ real-world evaluations of eight Gemini Robotics policy checkpoints and five tasks for a bimanual manipulator.