ChatPaper.aiChatPaper

DynaGuide: 능동적 동적 안내를 통한 확산 정책 조향

DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance

June 16, 2025
저자: Maximilian Du, Shuran Song
cs.AI

초록

실제 세계에서 크고 복잡한 정책을 배치하려면 상황에 맞게 조정할 수 있는 능력이 필요합니다. 목표 조건화와 같은 가장 일반적인 조정 접근법은 테스트 시점 목표의 분포를 염두에 두고 로봇 정책을 훈련시켜야 합니다. 이러한 한계를 극복하기 위해, 우리는 확산 디노이징 과정에서 외부 동역학 모델의 지도를 사용하여 확산 정책을 조정하는 DynaGuide라는 방법을 제시합니다. DynaGuide는 동역학 모델을 기본 정책과 분리함으로써 여러 가지 장점을 제공합니다. 이는 다중 목표를 향해 조정할 수 있는 능력, 기본 정책의 미흡한 행동을 강화할 수 있는 능력, 그리고 낮은 품질의 목표에서도 견고성을 유지할 수 있는 능력을 포함합니다. 분리된 지도 신호는 DynaGuide가 사전 훈련된 확산 정책과도 함께 작동할 수 있게 합니다. 우리는 DynaGuide의 성능과 특징을 다른 조정 접근법과 비교하여 일련의 시뮬레이션 및 실제 실험에서 입증했습니다. 이는 CALVIN 관절 작업 세트에서 평균 70%의 조정 성공률을 보였으며, 낮은 품질의 목표로 조정되었을 때 목표 조건화보다 5.4배 더 나은 성능을 보였습니다. 또한, 우리는 사전 훈련된 실제 로봇 정책을 성공적으로 조정하여 특정 물체에 대한 선호도를 표현하고 심지어 새로운 행동을 창출할 수 있었습니다. 비디오 및 추가 정보는 프로젝트 웹사이트에서 확인할 수 있습니다: https://dynaguide.github.io
English
Deploying large, complex policies in the real world requires the ability to steer them to fit the needs of a situation. Most common steering approaches, like goal-conditioning, require training the robot policy with a distribution of test-time objectives in mind. To overcome this limitation, we present DynaGuide, a steering method for diffusion policies using guidance from an external dynamics model during the diffusion denoising process. DynaGuide separates the dynamics model from the base policy, which gives it multiple advantages, including the ability to steer towards multiple objectives, enhance underrepresented base policy behaviors, and maintain robustness on low-quality objectives. The separate guidance signal also allows DynaGuide to work with off-the-shelf pretrained diffusion policies. We demonstrate the performance and features of DynaGuide against other steering approaches in a series of simulated and real experiments, showing an average steering success of 70% on a set of articulated CALVIN tasks and outperforming goal-conditioning by 5.4x when steered with low-quality objectives. We also successfully steer an off-the-shelf real robot policy to express preference for particular objects and even create novel behavior. Videos and more can be found on the project website: https://dynaguide.github.io
PDF02June 18, 2025