DynaGuide: Het Sturen van Diffusiebeleid met Actieve Dynamische Begeleiding
DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance
June 16, 2025
Auteurs: Maximilian Du, Shuran Song
cs.AI
Samenvatting
Het implementeren van grote, complexe beleidsregels in de echte wereld vereist het vermogen om deze te sturen zodat ze aansluiten bij de behoeften van een situatie. De meest gebruikelijke stuurmethoden, zoals doelconditionering, vereisen dat het robotbeleid wordt getraind met een verdeling van testtijddoelen in gedachten. Om deze beperking te overwinnen, presenteren we DynaGuide, een stuurmethode voor diffusiebeleid die gebruikmaakt van begeleiding van een extern dynamisch model tijdens het diffusie-ontruisingsproces. DynaGuide scheidt het dynamische model van het basisbeleid, wat meerdere voordelen biedt, waaronder de mogelijkheid om naar meerdere doelen te sturen, ondervertegenwoordigde basisbeleidsgedragingen te versterken en robuustheid te behouden bij slechte kwaliteit van doelen. Het aparte begeleidingssignaal stelt DynaGuide ook in staat om te werken met kant-en-klare, vooraf getrainde diffusiebeleidsregels. We demonstreren de prestaties en kenmerken van DynaGuide in vergelijking met andere stuurmethoden in een reeks gesimuleerde en echte experimenten, waarbij we een gemiddeld stuursucces van 70% laten zien op een set van gearticuleerde CALVIN-taken en doelconditionering met 5,4x overtreffen wanneer gestuurd wordt met slechte kwaliteit van doelen. We sturen ook succesvol een kant-en-klaar echt robotbeleid aan om voorkeur voor bepaalde objecten uit te drukken en zelfs nieuw gedrag te creëren. Video's en meer zijn te vinden op de projectwebsite: https://dynaguide.github.io
English
Deploying large, complex policies in the real world requires the ability to
steer them to fit the needs of a situation. Most common steering approaches,
like goal-conditioning, require training the robot policy with a distribution
of test-time objectives in mind. To overcome this limitation, we present
DynaGuide, a steering method for diffusion policies using guidance from an
external dynamics model during the diffusion denoising process. DynaGuide
separates the dynamics model from the base policy, which gives it multiple
advantages, including the ability to steer towards multiple objectives, enhance
underrepresented base policy behaviors, and maintain robustness on low-quality
objectives. The separate guidance signal also allows DynaGuide to work with
off-the-shelf pretrained diffusion policies. We demonstrate the performance and
features of DynaGuide against other steering approaches in a series of
simulated and real experiments, showing an average steering success of 70% on a
set of articulated CALVIN tasks and outperforming goal-conditioning by 5.4x
when steered with low-quality objectives. We also successfully steer an
off-the-shelf real robot policy to express preference for particular objects
and even create novel behavior. Videos and more can be found on the project
website: https://dynaguide.github.io