ChatPaper.aiChatPaper

DynaGuide: Direcionando Políticas de Difusão com Orientação Dinâmica Ativa

DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance

June 16, 2025
Autores: Maximilian Du, Shuran Song
cs.AI

Resumo

A implantação de políticas grandes e complexas no mundo real exige a capacidade de direcioná-las para atender às necessidades de uma situação. As abordagens de direcionamento mais comuns, como o condicionamento por objetivo, exigem o treinamento da política do robô com uma distribuição de objetivos em mente para o momento de teste. Para superar essa limitação, apresentamos o DynaGuide, um método de direcionamento para políticas de difusão que utiliza orientação de um modelo de dinâmica externa durante o processo de remoção de ruído da difusão. O DynaGuide separa o modelo de dinâmica da política base, o que lhe confere várias vantagens, incluindo a capacidade de direcionar para múltiplos objetivos, aprimorar comportamentos sub-representados da política base e manter a robustez em objetivos de baixa qualidade. O sinal de orientação separado também permite que o DynaGuide funcione com políticas de difusão pré-treinadas prontas para uso. Demonstramos o desempenho e as características do DynaGuide em comparação com outras abordagens de direcionamento em uma série de experimentos simulados e reais, mostrando uma taxa média de sucesso de direcionamento de 70% em um conjunto de tarefas articuladas do CALVIN e superando o condicionamento por objetivo em 5,4 vezes quando direcionado com objetivos de baixa qualidade. Também direcionamos com sucesso uma política de robô real pronta para uso para expressar preferência por objetos específicos e até mesmo criar comportamentos novos. Vídeos e mais informações podem ser encontrados no site do projeto: https://dynaguide.github.io
English
Deploying large, complex policies in the real world requires the ability to steer them to fit the needs of a situation. Most common steering approaches, like goal-conditioning, require training the robot policy with a distribution of test-time objectives in mind. To overcome this limitation, we present DynaGuide, a steering method for diffusion policies using guidance from an external dynamics model during the diffusion denoising process. DynaGuide separates the dynamics model from the base policy, which gives it multiple advantages, including the ability to steer towards multiple objectives, enhance underrepresented base policy behaviors, and maintain robustness on low-quality objectives. The separate guidance signal also allows DynaGuide to work with off-the-shelf pretrained diffusion policies. We demonstrate the performance and features of DynaGuide against other steering approaches in a series of simulated and real experiments, showing an average steering success of 70% on a set of articulated CALVIN tasks and outperforming goal-conditioning by 5.4x when steered with low-quality objectives. We also successfully steer an off-the-shelf real robot policy to express preference for particular objects and even create novel behavior. Videos and more can be found on the project website: https://dynaguide.github.io
PDF12June 18, 2025