EBT-정책: 에너지 기반 물리적 추론 능력의 출현
EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
October 31, 2025
저자: Travis Davies, Yiqi Huang, Alexi Gladstone, Yunxin Liu, Xiang Chen, Heng Ji, Huxian Liu, Luhui Hu
cs.AI
초록
생성 모델(예: Diffusion Policy)로 매개변수화된 암묵적 정책은 로봇공학의 정책 학습 및 시각-언어-행동(VLA) 모델의 표준으로 자리잡았습니다. 그러나 이러한 접근법은 높은 계산 비용, 노출 편향, 불안정한 추론 동역학으로 인해 종종 어려움을 겪으며, 분포 변화에서 발산을 초래합니다. 에너지 기반 모델(EBM)은 종단간 에너지 지형을 학습하고 평형 동역학을 모델링하여 이러한 문제를 해결하며, 향상된 강건성과 감소된 노출 편향을 제공합니다. 하지만 EBM으로 매개변수화된 정책은 역사적으로 효과적으로 확장되는 데 어려움을 겪어왔습니다. 에너지 기반 트랜스포머(EBT)에 대한 최근 연구는 EBM의 고차원 공간으로의 확장성을 입증했지만, 물리적 구현 모델의 핵심 과제 해결을 위한 잠재력은 충분히 탐구되지 않았습니다. 우리는 로봇 및 실제 환경의 핵심 문제를 해결하는 새로운 에너지 기반 아키텍처인 EBT-Policy를 소개합니다. 시뮬레이션 및 실제 작업 전반에 걸쳐 EBT-Policy는 확산 기반 정책을 지속적으로 능가하면서도 더 적은 훈련 및 추론 계산을 필요로 합니다. 특히, 일부 작업에서는 단 두 번의 추론 단계만으로 수렴하며, 이는 Diffusion Policy의 100단계에 비해 50배 감소한 수치입니다. 더 나아가, EBT-Policy는 명시적인 재시도 훈련 없이 순수한 행동 복제만을 사용하여 실패한 동작 시퀀스로부터의 제로샷 복구와 같이 기존 모델에서는 볼 수 없었던 새로운 능력을 나타냅니다. 스칼라 에너지를 활용한 불확실성 인식 추론 및 동적 계산 할당을 통해 EBT-Policy는 분포 변화 하에서 강건하고 일반화 가능한 로봇 행동을 위한 유망한 길을 제시합니다.
English
Implicit policies parameterized by generative models, such as Diffusion
Policy, have become the standard for policy learning and Vision-Language-Action
(VLA) models in robotics. However, these approaches often suffer from high
computational cost, exposure bias, and unstable inference dynamics, which lead
to divergence under distribution shifts. Energy-Based Models (EBMs) address
these issues by learning energy landscapes end-to-end and modeling equilibrium
dynamics, offering improved robustness and reduced exposure bias. Yet, policies
parameterized by EBMs have historically struggled to scale effectively. Recent
work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs
to high-dimensional spaces, but their potential for solving core challenges in
physically embodied models remains underexplored. We introduce a new
energy-based architecture, EBT-Policy, that solves core issues in robotic and
real-world settings. Across simulated and real-world tasks, EBT-Policy
consistently outperforms diffusion-based policies, while requiring less
training and inference computation. Remarkably, on some tasks it converges
within just two inference steps, a 50x reduction compared to Diffusion Policy's
100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior
models, such as zero-shot recovery from failed action sequences using only
behavior cloning and without explicit retry training. By leveraging its scalar
energy for uncertainty-aware inference and dynamic compute allocation,
EBT-Policy offers a promising path toward robust, generalizable robot behavior
under distribution shifts.