EBT-Policy: エネルギーが創発する物理推論能力
EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
October 31, 2025
著者: Travis Davies, Yiqi Huang, Alexi Gladstone, Yunxin Liu, Xiang Chen, Heng Ji, Huxian Liu, Luhui Hu
cs.AI
要旨
拡散ポリシーなどの生成モデルによってパラメータ化された暗黙的ポリシーは、ロボット工学におけるポリシー学習とVision-Language-Action(VLA)モデルの標準となっている。しかし、これらのアプローチは高い計算コスト、エクスポージャーバイアス、不安定な推論ダイナミクスに悩まされることが多く、分布シフト下での発散を引き起こす。エネルギー基準モデル(EBM)は、エネルギーランドスケープをエンドツーエンドで学習し平衡ダイナミクスをモデル化することでこれらの問題に対処し、改善されたロバスト性と低減されたエクスポージャーバイアスを提供する。しかし、EBMでパラメータ化されたポリシーは歴史的に効果的なスケーリングに苦戦してきた。エネルギー基準トランスフォーマー(EBT)に関する最近の研究は、高次元空間へのEBMのスケーラビリティを実証しているが、物理的実体を持つモデルの中核的課題解決への可能性は未開拓のままである。我々は、ロボットおよび実世界設定の中核的課題を解決する新しいエネルギー基準アーキテクチャ「EBT-Policy」を提案する。シミュレーションと実世界のタスク全体で、EBT-Policyは拡散ベースのポリシーを一貫して上回りながら、より少ない訓練と推論計算を必要とする。驚くべきことに、一部のタスクではわずか2回の推論ステップで収束し、拡散ポリシーの100ステップと比較して50倍の削減を実現した。さらにEBT-Policyは、明示的なリトライ訓練なしで行動クローニングのみを用いた失敗した行動シーケンスからのゼロショット回復など、従来モデルでは見られなかった創発的能力を示す。スカラーエネルギーを不確実性認識推論と動的計算割り当てに活用することで、EBT-Policyは分布シフト下でのロバストで一般化可能なロボット動作への有望な道筋を提供する。
English
Implicit policies parameterized by generative models, such as Diffusion
Policy, have become the standard for policy learning and Vision-Language-Action
(VLA) models in robotics. However, these approaches often suffer from high
computational cost, exposure bias, and unstable inference dynamics, which lead
to divergence under distribution shifts. Energy-Based Models (EBMs) address
these issues by learning energy landscapes end-to-end and modeling equilibrium
dynamics, offering improved robustness and reduced exposure bias. Yet, policies
parameterized by EBMs have historically struggled to scale effectively. Recent
work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs
to high-dimensional spaces, but their potential for solving core challenges in
physically embodied models remains underexplored. We introduce a new
energy-based architecture, EBT-Policy, that solves core issues in robotic and
real-world settings. Across simulated and real-world tasks, EBT-Policy
consistently outperforms diffusion-based policies, while requiring less
training and inference computation. Remarkably, on some tasks it converges
within just two inference steps, a 50x reduction compared to Diffusion Policy's
100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior
models, such as zero-shot recovery from failed action sequences using only
behavior cloning and without explicit retry training. By leveraging its scalar
energy for uncertainty-aware inference and dynamic compute allocation,
EBT-Policy offers a promising path toward robust, generalizable robot behavior
under distribution shifts.