EBT-Policy: L'Energia Sblocca Capacità Emergenti di Ragionamento Fisico

Abstract

Le politiche implicite parametrizzate da modelli generativi, come Diffusion Policy, sono diventate lo standard per l'apprendimento di politiche e i modelli Visione-Linguaggio-Azione (VLA) nella robotica. Tuttavia, questi approcci soffrono spesso di elevati costi computazionali, bias di esposizione e dinamiche di inferenza instabili, che portano a divergenze sotto shift distribuzionali. I Modelli Basati su Energia (EBM) affrontano questi problemi apprendendo landscape energetici end-to-end e modellando dinamiche di equilibrio, offrendo una maggiore robustezza e una riduzione del bias di esposizione. Nonostante ciò, le politiche parametrizzate da EBM hanno storicamente faticato a scalare efficacemente. Recenti lavori sugli Energy-Based Transformer (EBT) dimostrano la scalabilità degli EBM verso spazi ad alta dimensionalità, ma il loro potenziale per risolvere le sfide fondamentali nei modelli fisicamente incarnati rimane inesplorato. Introduciamo una nuova architettura basata su energia, EBT-Policy, che risolve problemi chiave in contesti robotici e del mondo reale. In varie attività sia simulate che nel mondo reale, EBT-Policy supera costantemente le politiche basate su diffusione, richiedendo al contempo meno calcolo durante l'addestramento e l'inferenza. Notevolmente, in alcune attività converge in soli due passi di inferenza, una riduzione di 50 volte rispetto ai 100 passi di Diffusion Policy. Inoltre, EBT-Policy mostra capacità emergenti non osservate nei modelli precedenti, come il recupero zero-shot da sequenze di azioni fallite utilizzando solo la clonazione del comportamento e senza un addestramento esplicito al ripristino. Sfruttando la sua energia scalare per inferenza consapevole dell'incertezza e allocazione dinamica del calcolo, EBT-Policy offre una strada promettente verso comportamenti robotici robusti e generalizzabili sotto shift distribuzionali.

English

Implicit policies parameterized by generative models, such as Diffusion Policy, have become the standard for policy learning and Vision-Language-Action (VLA) models in robotics. However, these approaches often suffer from high computational cost, exposure bias, and unstable inference dynamics, which lead to divergence under distribution shifts. Energy-Based Models (EBMs) address these issues by learning energy landscapes end-to-end and modeling equilibrium dynamics, offering improved robustness and reduced exposure bias. Yet, policies parameterized by EBMs have historically struggled to scale effectively. Recent work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs to high-dimensional spaces, but their potential for solving core challenges in physically embodied models remains underexplored. We introduce a new energy-based architecture, EBT-Policy, that solves core issues in robotic and real-world settings. Across simulated and real-world tasks, EBT-Policy consistently outperforms diffusion-based policies, while requiring less training and inference computation. Remarkably, on some tasks it converges within just two inference steps, a 50x reduction compared to Diffusion Policy's 100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior models, such as zero-shot recovery from failed action sequences using only behavior cloning and without explicit retry training. By leveraging its scalar energy for uncertainty-aware inference and dynamic compute allocation, EBT-Policy offers a promising path toward robust, generalizable robot behavior under distribution shifts.

EBT-Policy: L'Energia Sblocca Capacità Emergenti di Ragionamento Fisico

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

Abstract

Support