EBT-Política: A Energia Desbloqueia Capacidades Emergentes de Raciocínio Físico

Resumo

Políticas implícitas parametrizadas por modelos generativos, como a Política de Difusão, tornaram-se o padrão para a aprendizagem de políticas e modelos Visão-Linguagem-Ação (VLA) em robótica. No entanto, essas abordagens frequentemente sofrem com alto custo computacional, viés de exposição e dinâmicas de inferência instáveis, que levam à divergência sob mudanças de distribuição. Os Modelos Baseados em Energia (EBMs) abordam essas questões ao aprender paisagens de energia de forma ponta a ponta e modelar dinâmicas de equilíbrio, oferecendo maior robustez e redução do viés de exposição. Ainda assim, políticas parametrizadas por EBMs historicamente têm lutado para escalar de forma eficaz. Trabalhos recentes sobre Transformadores Baseados em Energia (EBTs) demonstram a escalabilidade dos EBMs para espaços de alta dimensionalidade, mas o seu potencial para resolver desafios centrais em modelos fisicamente incorporados permanece pouco explorado. Introduzimos uma nova arquitetura baseada em energia, a EBT-Policy, que resolve problemas centrais em contextos robóticos e do mundo real. Em tarefas simuladas e do mundo real, a EBT-Policy supera consistentemente políticas baseadas em difusão, ao mesmo tempo que requer menos computação para treinamento e inferência. Notavelmente, em algumas tarefas, ela converge em apenas dois passos de inferência, uma redução de 50x em comparação com os 100 passos da Política de Difusão. Além disso, a EBT-Policy exibe capacidades emergentes não vistas em modelos anteriores, como a recuperação *zero-shot* de sequências de ações falhas usando apenas clonagem comportamental e sem treinamento explícito de repetição. Ao alavancar sua energia escalar para inferência consciente da incerteza e alocação dinâmica de computação, a EBT-Policy oferece um caminho promissor para comportamentos robóticos robustos e generalizáveis sob mudanças de distribuição.

English

Implicit policies parameterized by generative models, such as Diffusion Policy, have become the standard for policy learning and Vision-Language-Action (VLA) models in robotics. However, these approaches often suffer from high computational cost, exposure bias, and unstable inference dynamics, which lead to divergence under distribution shifts. Energy-Based Models (EBMs) address these issues by learning energy landscapes end-to-end and modeling equilibrium dynamics, offering improved robustness and reduced exposure bias. Yet, policies parameterized by EBMs have historically struggled to scale effectively. Recent work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs to high-dimensional spaces, but their potential for solving core challenges in physically embodied models remains underexplored. We introduce a new energy-based architecture, EBT-Policy, that solves core issues in robotic and real-world settings. Across simulated and real-world tasks, EBT-Policy consistently outperforms diffusion-based policies, while requiring less training and inference computation. Remarkably, on some tasks it converges within just two inference steps, a 50x reduction compared to Diffusion Policy's 100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior models, such as zero-shot recovery from failed action sequences using only behavior cloning and without explicit retry training. By leveraging its scalar energy for uncertainty-aware inference and dynamic compute allocation, EBT-Policy offers a promising path toward robust, generalizable robot behavior under distribution shifts.