ChatPaper.aiChatPaper

EBT-Beid: Energie Ontgrendelt Opkomende Fysieke Redeneervaardigheden

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

October 31, 2025
Auteurs: Travis Davies, Yiqi Huang, Alexi Gladstone, Yunxin Liu, Xiang Chen, Heng Ji, Huxian Liu, Luhui Hu
cs.AI

Samenvatting

Impliciete beleidsmodellen geparametriseerd door generatieve modellen, zoals Diffusion Policy, zijn de standaard geworden voor beleidsleren en Vision-Language-Action (VLA)-modellen in de robotica. Deze benaderingen kampen echter vaak met hoge rekenkosten, exposure bias en onstabiele inferentiedynamiek, wat leidt tot divergentie bij distributieverschuivingen. Energy-Based Models (EBM's) pakken deze problemen aan door energie-landschappen end-to-end te leren en evenwichtsdynamica te modelleren, wat een verbeterde robuustheid en verminderde exposure bias biedt. Toch hebben op EBM's geparametriseerde beleidsmodellen historisch gezien moeite om effectief op te schalen. Recent werk over Energy-Based Transformers (EBT's) toont de schaalbaarheid van EBM's naar hoogdimensionale ruimtes aan, maar hun potentieel om kernuitdagingen in fysiek belichaamde modellen op te lossen blijft onderbelicht. Wij introduceren een nieuwe energie-gebaseerde architectuur, EBT-Policy, die kernproblemen in robot- en real-world settings oplost. In zowel gesimuleerde als real-world taken presteert EBT-Policy consistent beter dan op diffusie gebaseerde beleidsmodellen, terwijl het minder rekenkracht voor training en inferentie vereist. Opmerkelijk genoeg convergeert het bij sommige taken binnen slechts twee inferentiestappen, een reductie van 50x vergeleken met de 100 stappen van Diffusion Policy. Bovendien vertoont EBT-Policy emergentie van capaciteiten die niet gezien werden in eerdere modellen, zoals zero-shot herstel van mislukte actiesequenties met alleen behavior cloning en zonder expliciete retry-training. Door gebruik te maken van zijn scalaire energie voor onzekerheidsbewuste inferentie en dynamische rekenallocatie, biedt EBT-Policy een veelbelovend pad naar robuust, generaliseerbaar robotgedrag onder distributieverschuivingen.
English
Implicit policies parameterized by generative models, such as Diffusion Policy, have become the standard for policy learning and Vision-Language-Action (VLA) models in robotics. However, these approaches often suffer from high computational cost, exposure bias, and unstable inference dynamics, which lead to divergence under distribution shifts. Energy-Based Models (EBMs) address these issues by learning energy landscapes end-to-end and modeling equilibrium dynamics, offering improved robustness and reduced exposure bias. Yet, policies parameterized by EBMs have historically struggled to scale effectively. Recent work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs to high-dimensional spaces, but their potential for solving core challenges in physically embodied models remains underexplored. We introduce a new energy-based architecture, EBT-Policy, that solves core issues in robotic and real-world settings. Across simulated and real-world tasks, EBT-Policy consistently outperforms diffusion-based policies, while requiring less training and inference computation. Remarkably, on some tasks it converges within just two inference steps, a 50x reduction compared to Diffusion Policy's 100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior models, such as zero-shot recovery from failed action sequences using only behavior cloning and without explicit retry training. By leveraging its scalar energy for uncertainty-aware inference and dynamic compute allocation, EBT-Policy offers a promising path toward robust, generalizable robot behavior under distribution shifts.
PDF483December 2, 2025