DynaGuide: Dirección de Políticas de Difusión con Guía Dinámica Activa
DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance
June 16, 2025
Autores: Maximilian Du, Shuran Song
cs.AI
Resumen
La implementación de políticas grandes y complejas en el mundo real requiere la capacidad de dirigirlas para adaptarse a las necesidades de una situación. Los enfoques de dirección más comunes, como el condicionamiento por objetivos, requieren entrenar la política del robot con una distribución de objetivos en mente para el momento de la prueba. Para superar esta limitación, presentamos DynaGuide, un método de dirección para políticas de difusión que utiliza guía de un modelo de dinámica externa durante el proceso de eliminación de ruido de la difusión. DynaGuide separa el modelo de dinámica de la política base, lo que le otorga múltiples ventajas, incluyendo la capacidad de dirigirse hacia múltiples objetivos, mejorar comportamientos subrepresentados de la política base y mantener la robustez frente a objetivos de baja calidad. La señal de guía separada también permite que DynaGuide funcione con políticas de difusión preentrenadas disponibles comercialmente. Demostramos el rendimiento y las características de DynaGuide en comparación con otros enfoques de dirección en una serie de experimentos simulados y reales, mostrando un éxito promedio de dirección del 70% en un conjunto de tareas articuladas de CALVIN y superando al condicionamiento por objetivos en 5.4 veces cuando se dirige con objetivos de baja calidad. También dirigimos con éxito una política de robot real preentrenada para expresar preferencia por objetos particulares e incluso crear comportamientos novedosos. Videos y más información se pueden encontrar en el sitio web del proyecto: https://dynaguide.github.io.
English
Deploying large, complex policies in the real world requires the ability to
steer them to fit the needs of a situation. Most common steering approaches,
like goal-conditioning, require training the robot policy with a distribution
of test-time objectives in mind. To overcome this limitation, we present
DynaGuide, a steering method for diffusion policies using guidance from an
external dynamics model during the diffusion denoising process. DynaGuide
separates the dynamics model from the base policy, which gives it multiple
advantages, including the ability to steer towards multiple objectives, enhance
underrepresented base policy behaviors, and maintain robustness on low-quality
objectives. The separate guidance signal also allows DynaGuide to work with
off-the-shelf pretrained diffusion policies. We demonstrate the performance and
features of DynaGuide against other steering approaches in a series of
simulated and real experiments, showing an average steering success of 70% on a
set of articulated CALVIN tasks and outperforming goal-conditioning by 5.4x
when steered with low-quality objectives. We also successfully steer an
off-the-shelf real robot policy to express preference for particular objects
and even create novel behavior. Videos and more can be found on the project
website: https://dynaguide.github.io