ChatPaper.aiChatPaper

SeedPolicy: 로봇 매니퓰레이션을 위한 자기 진화 확산 정책 기반 수평적 확장

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

March 5, 2026
저자: Youqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Shuaicheng Liu
cs.AI

초록

모방 학습(Imitation Learning, IL)은 로봇이 전문가 데모를 통해 조작 기술을 습득할 수 있게 합니다. 확산 정책(Diffusion Policy, DP)은 다중 모드 전문가 행동을 모델링하지만 관측 지평이 증가함에 따라 성능 저하를 겪어 장기간 조작에 한계가 있습니다. 본 연구에서는 게이트 어텐션을 통해 시간에 따라 진화하는 잠재 상태를 유지하는 시간 모듈인 Self-Evolving Gated Attention(SEGA)을 제안합니다. 이를 통해 장기간 관측 정보를 고정 크기 표현으로 압축하면서 관련 없는 시간 정보를 필터링하는 효율적인 순환 업데이트가 가능합니다. SEGA를 DP에 통합한 Self-Evolving Diffusion Policy(SeedPolicy)는 시간 모델링 병목 현상을 해결하고 적절한 오버헤드로 확장 가능한 지평 확장을 가능하게 합니다. 50개의 조작 작업으로 구성된 RoboTwin 2.0 벤치마크에서 SeedPolicy는 DP 및 다른 IL 기준 모델들을 능가했습니다. CNN과 Transformer 백본을 평균했을 때, SeedPolicy는 DP 대비 정상 설정에서 36.8%, 무작위 어려운 설정에서 169%의 상대적 성능 향상을 달성했습니다. 12억 개의 매개변수를 가진 RDT와 같은 vision-language-action 모델들과 비교했을 때, SeedPolicy는 1~2배수 적은 매개변수로 경쟁력 있는 성능을 달성하여 뛰어난 효율성과 확장성을 입증했습니다. 이러한 결과는 SeedPolicy를 장기간 로봇 조작을 위한 최첨단 모방 학습 방법으로 확립합니다. 코드는 https://github.com/Youqiang-Gui/SeedPolicy에서 확인할 수 있습니다.
English
Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.
PDF02March 16, 2026