ChatPaper.aiChatPaper

EBT-Politique : L'Énergie Débloque des Capacités Émergentes de Raisonnement Physique

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

October 31, 2025
papers.authors: Travis Davies, Yiqi Huang, Alexi Gladstone, Yunxin Liu, Xiang Chen, Heng Ji, Huxian Liu, Luhui Hu
cs.AI

papers.abstract

Les politiques implicites paramétrées par des modèles génératifs, comme Diffusion Policy, sont devenues la norme pour l'apprentissage de politiques et les modèles Vision-Langage-Action (VLA) en robotique. Cependant, ces approches souffrent souvent d'un coût computationnel élevé, d'un biais d'exposition et de dynamiques d'inférence instables, conduisant à une divergence sous des changements de distribution. Les modèles à base d'énergie (EBM) abordent ces problèmes en apprenant des paysages énergétiques de bout en bout et en modélisant des dynamiques d'équilibre, offrant ainsi une robustesse améliorée et un biais d'exposition réduit. Pourtant, les politiques paramétrées par des EBM ont historiquement peiné à passer à l'échelle efficacement. Des travaux récents sur les Transformers à base d'énergie (EBT) démontrent la scalabilité des EBM dans des espaces de haute dimension, mais leur potentiel pour résoudre les défis fondamentaux des modèles physiquement incarnés reste sous-exploré. Nous introduisons une nouvelle architecture à base d'énergie, EBT-Policy, qui résout des problèmes clés dans des contextes robotiques et réels. Sur diverses tâches en simulation et dans le monde réel, EBT-Policy surpasse systématiquement les politiques basées sur la diffusion, tout en nécessitant moins de calcul pour l'entraînement et l'inférence. Fait remarquable, sur certaines tâches, elle converge en seulement deux étapes d'inférence, une réduction par 50 par rapport aux 100 étapes de Diffusion Policy. De plus, EBT-Policy présente des capacités émergentes inédites dans les modèles précédents, comme la capacité de récupération en zéro-shot après des séquences d'actions ayant échoué, en utilisant uniquement le clonage comportemental et sans entraînement explicite à la reprise. En tirant parti de son énergie scalaire pour une inférence consciente de l'incertitude et une allocation dynamique des ressources de calcul, EBT-Policy ouvre une voie prometteuse vers un comportement robotique robuste et généralisable sous des changements de distribution.
English
Implicit policies parameterized by generative models, such as Diffusion Policy, have become the standard for policy learning and Vision-Language-Action (VLA) models in robotics. However, these approaches often suffer from high computational cost, exposure bias, and unstable inference dynamics, which lead to divergence under distribution shifts. Energy-Based Models (EBMs) address these issues by learning energy landscapes end-to-end and modeling equilibrium dynamics, offering improved robustness and reduced exposure bias. Yet, policies parameterized by EBMs have historically struggled to scale effectively. Recent work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs to high-dimensional spaces, but their potential for solving core challenges in physically embodied models remains underexplored. We introduce a new energy-based architecture, EBT-Policy, that solves core issues in robotic and real-world settings. Across simulated and real-world tasks, EBT-Policy consistently outperforms diffusion-based policies, while requiring less training and inference computation. Remarkably, on some tasks it converges within just two inference steps, a 50x reduction compared to Diffusion Policy's 100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior models, such as zero-shot recovery from failed action sequences using only behavior cloning and without explicit retry training. By leveraging its scalar energy for uncertainty-aware inference and dynamic compute allocation, EBT-Policy offers a promising path toward robust, generalizable robot behavior under distribution shifts.
PDF493January 19, 2026