ChatPaper.aiChatPaper

SeedPolicy: Horizonschaling via zelf-evoluerende diffusiebeleid voor robotmanipulatie

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

March 5, 2026
Auteurs: Youqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Shuaicheng Liu
cs.AI

Samenvatting

Imitation Learning (IL) stelt robots in staat om manipulatievaardigheden aan te leren op basis van demonstraties door experts. Diffusion Policy (DP) modelleert multimodale expertgedragingen, maar lijdt onder prestatievermindering naarmate de observatiehorizon toeneemt, wat een beperking vormt voor manipulatie op lange termijn. Wij stellen Self-Evolving Gated Attention (SEGA) voor, een tijdelijk module die een zich in de tijd ontwikkelende latente toestand handhaaft via gated attention. Dit maakt efficiënte recurrent updates mogelijk die lange-termijn observaties comprimeren tot een representatie met vaste grootte, terwijl irrelevante temporele informatie wordt gefilterd. Integratie van SEGA in DP resulteert in Self-Evolving Diffusion Policy (SeedPolicy), wat het knelpunt in temporele modellering oplost en schaalbare horizonuitbreiding mogelijk maakt met een gematigde overhead. Op de RoboTwin 2.0-benchmark met 50 manipulatietaken presteert SeedPolicy beter dan DP en andere IL-baselines. Gemiddeld over zowel CNN- als Transformer-backbones behaalt SeedPolicy een relatieve verbetering van 36,8% in schone settings en een relatieve verbetering van 169% in uitdagende, gerandomiseerde settings ten opzichte van DP. Vergeleken met vision-language-action modellen zoals RDT met 1,2 miljard parameters, behaalt SeedPolicy vergelijkbare prestaties met één tot twee ordes van grootte minder parameters, wat sterke efficiëntie en schaalbaarheid aantoont. Deze resultaten positioneren SeedPolicy als een state-of-the-art imitation learning-methode voor robotmanipulatie op lange termijn. Code is beschikbaar op: https://github.com/Youqiang-Gui/SeedPolicy.
English
Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.
PDF02March 26, 2026