EBT-Política: La Energía Desbloquea Capacidades Emergentes de Razonamiento Físico

Resumen

Las políticas implícitas parametrizadas por modelos generativos, como Diffusion Policy, se han convertido en el estándar para el aprendizaje de políticas y los modelos Visión-Lenguaje-Acción (VLA) en robótica. Sin embargo, estos enfoques a menudo adolecen de un alto coste computacional, sesgo de exposición y dinámicas de inferencia inestables, lo que provoca divergencia bajo cambios de distribución. Los Modelos Basados en Energía (EBM) abordan estos problemas aprendiendo paisajes de energía de extremo a extremo y modelando dinámicas de equilibrio, ofreciendo una mayor robustez y un sesgo de exposición reducido. No obstante, las políticas parametrizadas por EBM históricamente han tenido dificultades para escalar de manera efectiva. Trabajos recientes sobre Transformadores Basados en Energía (EBT) demuestran la escalabilidad de los EBM a espacios de alta dimensionalidad, pero su potencial para resolver desafíos centrales en modelos físicamente corporeizados sigue estando poco explorado. Introducimos una nueva arquitectura basada en energía, EBT-Policy, que resuelve problemas fundamentales en entornos robóticos y del mundo real. En diversas tareas simuladas y del mundo real, EBT-Policy supera consistentemente a las políticas basadas en difusión, requiriendo además menos cómputo tanto en el entrenamiento como en la inferencia. Notablemente, en algunas tareas converge en solo dos pasos de inferencia, una reducción de 50x comparado con los 100 pasos de Diffusion Policy. Además, EBT-Policy exhibe capacidades emergentes no vistas en modelos anteriores, como la recuperación *zero-shot* de secuencias de acciones fallidas utilizando únicamente clonación de comportamiento y sin un entrenamiento explícito de reintento. Al aprovechar su energía escalar para realizar inferencias conscientes de la incertidumbre y asignación dinámica de cómputo, EBT-Policy ofrece un camino prometedor hacia comportamientos robóticos robustos y generalizables bajo cambios de distribución.

English

Implicit policies parameterized by generative models, such as Diffusion Policy, have become the standard for policy learning and Vision-Language-Action (VLA) models in robotics. However, these approaches often suffer from high computational cost, exposure bias, and unstable inference dynamics, which lead to divergence under distribution shifts. Energy-Based Models (EBMs) address these issues by learning energy landscapes end-to-end and modeling equilibrium dynamics, offering improved robustness and reduced exposure bias. Yet, policies parameterized by EBMs have historically struggled to scale effectively. Recent work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs to high-dimensional spaces, but their potential for solving core challenges in physically embodied models remains underexplored. We introduce a new energy-based architecture, EBT-Policy, that solves core issues in robotic and real-world settings. Across simulated and real-world tasks, EBT-Policy consistently outperforms diffusion-based policies, while requiring less training and inference computation. Remarkably, on some tasks it converges within just two inference steps, a 50x reduction compared to Diffusion Policy's 100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior models, such as zero-shot recovery from failed action sequences using only behavior cloning and without explicit retry training. By leveraging its scalar energy for uncertainty-aware inference and dynamic compute allocation, EBT-Policy offers a promising path toward robust, generalizable robot behavior under distribution shifts.