EBT-Policy: Energie erschließt neuartige Fähigkeiten zum physikalischen Schlussfolgern

Zusammenfassung

Implizite Policys, die durch generative Modelle wie Diffusion Policy parametrisiert werden, haben sich zum Standard für Policy-Learning und Vision-Language-Action (VLA)-Modelle in der Robotik entwickelt. Diese Ansätze leiden jedoch oft unter hohen Rechenkosten, Exposure Bias und instabilen Inferenzdynamiken, was zu Divergenz bei Distributionsverschiebungen führt. Energy-Based Models (EBMs) adressieren diese Probleme, indem sie Energielandschaften end-to-end lernen und Gleichgewichtsdynamiken modellieren, was eine verbesserte Robustheit und reduzierten Exposure Bias bietet. Dennoch hatten Policys, die durch EBMs parametrisiert werden, historisch gesehen Schwierigkeiten, effektiv zu skalieren. Jüngste Arbeiten zu Energy-Based Transformern (EBTs) demonstrieren die Skalierbarkeit von EBMs auf hochdimensionale Räume, doch ihr Potenzial zur Lösung zentraler Herausforderungen in physisch verkörperten Modellen bleibt untererforscht. Wir stellen eine neue energiebasierte Architektur vor, EBT-Policy, die Kernprobleme in robotischen und realen Umgebungen löst. In simulierten und realen Aufgaben übertrifft EBT-Policy durchgängig diffusionsbasierte Policys, benötigt dabei jedoch weniger Rechenaufwand für Training und Inferenz. Bemerkenswerterweise konvergiert es bei einigen Aufgaben bereits nach nur zwei Inferenzschritten, was einer 50-fachen Reduktion gegenüber den 100 Schritten von Diffusion Policy entspricht. Darüber hinaus zeigt EBT-Policy emergenten Fähigkeiten, die bei früheren Modellen nicht beobachtet wurden, wie z.B. Zero-Shot-Wiederherstellung von fehlgeschlagenen Aktionssequenzen allein durch Behavior Cloning und ohne explizites Wiederholungstraining. Indem EBT-Policy seine skalare Energie für unsicherheitsbewusste Inferenz und dynamische Rechenzuweisung nutzt, eröffnet es einen vielversprechenden Weg zu robustem, generalisierbarem Roboterverhalten unter Distributionsverschiebungen.

English

Implicit policies parameterized by generative models, such as Diffusion Policy, have become the standard for policy learning and Vision-Language-Action (VLA) models in robotics. However, these approaches often suffer from high computational cost, exposure bias, and unstable inference dynamics, which lead to divergence under distribution shifts. Energy-Based Models (EBMs) address these issues by learning energy landscapes end-to-end and modeling equilibrium dynamics, offering improved robustness and reduced exposure bias. Yet, policies parameterized by EBMs have historically struggled to scale effectively. Recent work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs to high-dimensional spaces, but their potential for solving core challenges in physically embodied models remains underexplored. We introduce a new energy-based architecture, EBT-Policy, that solves core issues in robotic and real-world settings. Across simulated and real-world tasks, EBT-Policy consistently outperforms diffusion-based policies, while requiring less training and inference computation. Remarkably, on some tasks it converges within just two inference steps, a 50x reduction compared to Diffusion Policy's 100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior models, such as zero-shot recovery from failed action sequences using only behavior cloning and without explicit retry training. By leveraging its scalar energy for uncertainty-aware inference and dynamic compute allocation, EBT-Policy offers a promising path toward robust, generalizable robot behavior under distribution shifts.