ChatPaper.aiChatPaper

ジェミニロボティクスポリシーのVeo Worldシミュレータにおける評価

Evaluating Gemini Robotics Policies in a Veo World Simulator

December 11, 2025
著者: Gemini Robotics Team, Coline Devin, Yilun Du, Debidatta Dwibedi, Ruiqi Gao, Abhishek Jindal, Thomas Kipf, Sean Kirmani, Fangchen Liu, Anirudha Majumdar, Andrew Marmon, Carolina Parada, Yulia Rubanova, Dhruv Shah, Vikas Sindhwani, Jie Tan, Fei Xia, Ted Xiao, Sherry Yang, Wenhao Yu, Allan Zhou
cs.AI

要旨

生成的ワールドモデルは、多様な環境における視覚運動ポリシーとの相互作用シミュレーションにおいて大きな可能性を秘めている。フロンティアなビデオモデルは、現実的な観測値と環境相互作用をスケーラブルかつ汎用的な方法で生成することを可能にする。しかし、ロボティクスにおけるビデオモデルの利用は、主に分布内評価、すなわちポリシーの学習や基盤ビデオモデルのファインチューニングに用いられたシナリオと同様の場面に限定されてきた。本報告では、ビデオモデルがロボティクスにおけるポリシー評価の全ユースケース、すなわち公称性能の評価から分布外(OOD)汎化性能、物理的・意味的な安全性の検証に至るまで、利用可能であることを実証する。我々は、フロンティアなビデオ基盤モデル(Veo)上に構築された生成的評価システムを紹介する。このシステムは、ロボットの行動条件付けとマルチビュー一貫性のサポートに最適化されるとともに、生成的画像編集とマルチビュー補完を統合し、実世界シーンの現実的なバリエーションを複数の汎化軸に沿って合成する。本システムが、新規の相互作用対象物、新規の視覚的背景、新規の妨害対象物を含むように編集されたシーンを正確にシミュレートするという、ビデオモデルの基本能力を保持することを実証する。この高精度性により、公称条件およびOOD条件下での異なるポリシーの相対的性能を正確に予測し、異なる汎化軸がポリシー性能に与える相対的影響を判定し、物理的または意味的な安全性制約に違反する行動を暴露するためのポリシーのレッドチーミングを実行することが可能となる。我々は、双腕マニピュレータにおける8つのGemini Roboticsポリシーチェックポイントと5つのタスクに対して1600回以上に及ぶ実世界評価を通じて、これらの能力を検証する。
English
Generative world models hold significant potential for simulating interactions with visuomotor policies in varied environments. Frontier video models can enable generation of realistic observations and environment interactions in a scalable and general manner. However, the use of video models in robotics has been limited primarily to in-distribution evaluations, i.e., scenarios that are similar to ones used to train the policy or fine-tune the base video model. In this report, we demonstrate that video models can be used for the entire spectrum of policy evaluation use cases in robotics: from assessing nominal performance to out-of-distribution (OOD) generalization, and probing physical and semantic safety. We introduce a generative evaluation system built upon a frontier video foundation model (Veo). The system is optimized to support robot action conditioning and multi-view consistency, while integrating generative image-editing and multi-view completion to synthesize realistic variations of real-world scenes along multiple axes of generalization. We demonstrate that the system preserves the base capabilities of the video model to enable accurate simulation of scenes that have been edited to include novel interaction objects, novel visual backgrounds, and novel distractor objects. This fidelity enables accurately predicting the relative performance of different policies in both nominal and OOD conditions, determining the relative impact of different axes of generalization on policy performance, and performing red teaming of policies to expose behaviors that violate physical or semantic safety constraints. We validate these capabilities through 1600+ real-world evaluations of eight Gemini Robotics policy checkpoints and five tasks for a bimanual manipulator.
PDF81December 13, 2025