DynaGuide : Pilotage des politiques de diffusion par guidage dynamique actif
DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance
June 16, 2025
Auteurs: Maximilian Du, Shuran Song
cs.AI
Résumé
Le déploiement de politiques complexes et de grande envergure dans le monde réel nécessite la capacité de les orienter pour répondre aux besoins d'une situation donnée. Les approches d'orientation les plus courantes, comme le conditionnement par objectif, exigent d'entraîner la politique du robot en tenant compte d'une distribution d'objectifs au moment du test. Pour surmonter cette limitation, nous présentons DynaGuide, une méthode d'orientation pour les politiques de diffusion utilisant des indications provenant d'un modèle de dynamique externe pendant le processus de débruitage par diffusion. DynaGuide sépare le modèle de dynamique de la politique de base, ce qui lui confère plusieurs avantages, notamment la capacité de s'orienter vers plusieurs objectifs, d'améliorer les comportements sous-représentés de la politique de base et de maintenir la robustesse face à des objectifs de faible qualité. Le signal d'orientation distinct permet également à DynaGuide de fonctionner avec des politiques de diffusion pré-entraînées disponibles sur étagère. Nous démontrons les performances et les caractéristiques de DynaGuide par rapport à d'autres approches d'orientation dans une série d'expériences simulées et réelles, montrant un taux de réussite moyen de 70 % sur un ensemble de tâches articulées CALVIN et surpassant le conditionnement par objectif par un facteur de 5,4x lorsqu'il est orienté avec des objectifs de faible qualité. Nous avons également réussi à orienter une politique de robot réel disponible sur étagère pour exprimer une préférence pour des objets particuliers et même créer un comportement nouveau. Les vidéos et plus d'informations sont disponibles sur le site du projet : https://dynaguide.github.io
English
Deploying large, complex policies in the real world requires the ability to
steer them to fit the needs of a situation. Most common steering approaches,
like goal-conditioning, require training the robot policy with a distribution
of test-time objectives in mind. To overcome this limitation, we present
DynaGuide, a steering method for diffusion policies using guidance from an
external dynamics model during the diffusion denoising process. DynaGuide
separates the dynamics model from the base policy, which gives it multiple
advantages, including the ability to steer towards multiple objectives, enhance
underrepresented base policy behaviors, and maintain robustness on low-quality
objectives. The separate guidance signal also allows DynaGuide to work with
off-the-shelf pretrained diffusion policies. We demonstrate the performance and
features of DynaGuide against other steering approaches in a series of
simulated and real experiments, showing an average steering success of 70% on a
set of articulated CALVIN tasks and outperforming goal-conditioning by 5.4x
when steered with low-quality objectives. We also successfully steer an
off-the-shelf real robot policy to express preference for particular objects
and even create novel behavior. Videos and more can be found on the project
website: https://dynaguide.github.io