DynaGuide: Управление политиками диффузии с помощью активного динамического руководства
DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance
June 16, 2025
Авторы: Maximilian Du, Shuran Song
cs.AI
Аннотация
Развертывание крупных и сложных политик в реальном мире требует возможности их настройки в соответствии с потребностями конкретной ситуации. Наиболее распространенные подходы к управлению, такие как целевое кондиционирование, предполагают обучение политики робота с учетом распределения целей на этапе тестирования. Чтобы преодолеть это ограничение, мы представляем DynaGuide — метод управления для диффузионных политик, использующий внешнюю модель динамики в процессе денойзинга диффузии. DynaGuide отделяет модель динамики от базовой политики, что дает ему несколько преимуществ, включая возможность настройки на несколько целей, усиление недостаточно представленных поведений базовой политики и сохранение устойчивости при работе с низкокачественными целями. Отдельный сигнал управления также позволяет DynaGuide работать с предварительно обученными диффузионными политиками без дополнительной доработки. Мы демонстрируем производительность и особенности DynaGuide в сравнении с другими подходами к управлению в серии симуляционных и реальных экспериментов, показывая средний успех управления в 70% на наборе задач CALVIN с сочленениями и превосходя целевое кондиционирование в 5,4 раза при управлении с низкокачественными целями. Мы также успешно управляем предварительно обученной политикой реального робота, чтобы выразить предпочтение определенным объектам и даже создать новое поведение. Видео и дополнительная информация доступны на сайте проекта: https://dynaguide.github.io.
English
Deploying large, complex policies in the real world requires the ability to
steer them to fit the needs of a situation. Most common steering approaches,
like goal-conditioning, require training the robot policy with a distribution
of test-time objectives in mind. To overcome this limitation, we present
DynaGuide, a steering method for diffusion policies using guidance from an
external dynamics model during the diffusion denoising process. DynaGuide
separates the dynamics model from the base policy, which gives it multiple
advantages, including the ability to steer towards multiple objectives, enhance
underrepresented base policy behaviors, and maintain robustness on low-quality
objectives. The separate guidance signal also allows DynaGuide to work with
off-the-shelf pretrained diffusion policies. We demonstrate the performance and
features of DynaGuide against other steering approaches in a series of
simulated and real experiments, showing an average steering success of 70% on a
set of articulated CALVIN tasks and outperforming goal-conditioning by 5.4x
when steered with low-quality objectives. We also successfully steer an
off-the-shelf real robot policy to express preference for particular objects
and even create novel behavior. Videos and more can be found on the project
website: https://dynaguide.github.io