ChatPaper.aiChatPaper

EBT-Политика: Энергия раскрывает эмерджентные способности к физическим рассуждениям

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

October 31, 2025
Авторы: Travis Davies, Yiqi Huang, Alexi Gladstone, Yunxin Liu, Xiang Chen, Heng Ji, Huxian Liu, Luhui Hu
cs.AI

Аннотация

Неявные политики, параметризованные генеративными моделями, такие как Diffusion Policy, стали стандартом для обучения политик и моделей «Видение-Язык-Действие» (VLA) в робототехнике. Однако эти подходы часто страдают от высоких вычислительных затрат, смещения воздействия (exposure bias) и нестабильной динамики вывода, что приводит к расхождению при сдвигах распределения. Модели на основе энергии (Energy-Based Models, EBMs) решают эти проблемы, обучая энергетические ландшафты сквозным образом и моделируя равновесную динамику, что обеспечивает повышенную робастность и снижение смещения воздействия. Тем не менее, политики, параметризованные EBMs, исторически плохо масштабировались. Недавние работы по Трансформерам на основе энергии (Energy-Based Transformers, EBTs) демонстрируют возможность масштабирования EBMs в пространствах высокой размерности, но их потенциал для решения ключевых проблем в физически воплощенных моделях остается недостаточно изученным. Мы представляем новую архитектуру на основе энергии, EBT-Policy, которая решает ключевые проблемы в робототехнических и реальных условиях. В симулированных и реальных задачах EBT-Policy стабильно превосходит политики на основе диффузии, требуя при этом меньше вычислений как на этапе обучения, так и на этапе вывода. Примечательно, что в некоторых задачах она сходится всего за два шага вывода, что в 50 раз меньше по сравнению со 100 шагами в Diffusion Policy. Более того, EBT-Policy демонстрирует emergent-способности, не наблюдавшиеся в предыдущих моделях, такие как zero-shot восстановление после неудачных последовательностей действий с использованием только клонирования поведения и без явного обучения повторным попыткам. Благодаря использованию скалярной энергии для вывода с учетом неопределенности и динамического распределения вычислений, EBT-Policy открывает перспективный путь к созданию робастного и обобщаемого поведения роботов в условиях сдвигов распределения.
English
Implicit policies parameterized by generative models, such as Diffusion Policy, have become the standard for policy learning and Vision-Language-Action (VLA) models in robotics. However, these approaches often suffer from high computational cost, exposure bias, and unstable inference dynamics, which lead to divergence under distribution shifts. Energy-Based Models (EBMs) address these issues by learning energy landscapes end-to-end and modeling equilibrium dynamics, offering improved robustness and reduced exposure bias. Yet, policies parameterized by EBMs have historically struggled to scale effectively. Recent work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs to high-dimensional spaces, but their potential for solving core challenges in physically embodied models remains underexplored. We introduce a new energy-based architecture, EBT-Policy, that solves core issues in robotic and real-world settings. Across simulated and real-world tasks, EBT-Policy consistently outperforms diffusion-based policies, while requiring less training and inference computation. Remarkably, on some tasks it converges within just two inference steps, a 50x reduction compared to Diffusion Policy's 100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior models, such as zero-shot recovery from failed action sequences using only behavior cloning and without explicit retry training. By leveraging its scalar energy for uncertainty-aware inference and dynamic compute allocation, EBT-Policy offers a promising path toward robust, generalizable robot behavior under distribution shifts.
PDF493January 19, 2026