Vesta: 汎用身体化推論モデル
Vesta: A Generalist Embodied Reasoning Model
June 18, 2026
著者: Johan Bjorck, Zhiqi Li, Yunze Man, Jing Wang, An-Chieh Cheng, Sifei Liu, Shihao Wang, Zhiding Yu, Abhishek Badki, Stan Birchfield, Valts Blukis, Yevgen Chebotar, Siyi Chen, Sicong Leng, Yu-Cheng Chou, Tianli Ding, Boyi Li, Zhengyi Luo, Hang Su, Jonathan Tremblay, Tingwu Wang, Bowen Wen, Jimmy Wu, Xianghui Xie, Hanrong Ye, Hongxu Yin, K. R. Zentner, Liangyan Gui, Yu-Xiong Wang, Yuke Zhu, Linxi "Jim" Fan, Jan Kautz
cs.AI
要旨
オープンワールド環境で動作するロボットは、位置推定、空間推論、ナビゲーション、および長期計画をシームレスに統合する必要がある。専門モデルは個々のタスクに優れているが、マルチモデルスタックを展開することは計算コストが高く、連鎖誤差が発生しやすい。本稿では、これらの能力を単一の基盤モデルに統合した、統一された身体性を持つ汎用モデルVestaを提案する。我々のアプローチは、空間的接地を誘発するように設計された多様で大規模なキュレートコーパスと、長期的な時間軸にわたる推論を可能にするシンプルなマルチモーダルメモリハーネスを組み合わせる。多様なベンチマークにおいて、Vestaは個々のSOTAベースラインを平均20%以上上回り、カテゴリ別最良ベースラインのアンサンブルを10%以上上回る。これにより、汎用モデルが専門家モデルに匹敵または凌駕できることを実証する。記憶と推論を必要とする実世界のロボットタスクにおいて、Vestaはタスク成功率を35%以上向上させる。したがって、我々の研究は、単一の汎用モデルが専門家モデルの組み合わせに対する実現可能でスケーラブルであり、おそらくより望ましい代替手段であることを示す。
English
Robots operating in open-world environments must seamlessly integrate localization, spatial reasoning, navigation, and long-horizon planning. While specialist models excel at individual tasks, deploying a multi-model stack is computationally expensive and prone to cascading errors. We present Vesta, a unified embodied generalist that consolidates these capabilities into a single foundation model. Our approach combines a diverse and massive curated corpus designed to induce spatial grounding and a simple multimodal memory harness that enables reasoning over extended time horizons. Across diverse benchmarks, Vesta on average beats individual SOTA baselines by >20% and beats an ensemble of per-category-best baselines by >10% -- thus demonstrating that a generalist model can match or exceed specialists. On real-world robotic tasks requiring memory and reasoning, Vesta improves task success by >35\%. Our work thus demonstrates that a single generalist is a feasible, scalable, and arguably preferable alternative to combining specialists.