SeedPolicy: Horizontale Skalierung durch selbst-evolvierende Diffusionspolitik für Robotermanipulation

Zusammenfassung

Imitation Learning (IL) ermöglicht es Robotern, Manipulationsfähigkeiten anhand von Experten-Demonstrationen zu erlernen. Diffusion Policy (DP) modelliert multimodales Expertenverhalten, leidet jedoch unter Leistungseinbußen bei zunehmendem Beobachtungshorizont, was die langfristige Manipulation einschränkt. Wir schlagen Self-Evolving Gated Attention (SEGA) vor, ein temporales Modul, das über gated attention einen zeitlich sich entwickelnden latenten Zustand aufrechterhält. Dies ermöglicht effiziente rekurrente Updates, die langfristige Beobachtungen in eine feste Größen komprimieren und gleichzeitig irrelevante temporale Informationen herausfiltern. Die Integration von SEGA in DP führt zu Self-Evolving Diffusion Policy (SeedPolicy), was den Engpass in der temporalen Modellierung beseitigt und eine skalierbare Horizonterweiterung mit moderatem Overhead ermöglicht. Im RoboTwin 2.0 Benchmark mit 50 Manipulationsaufgaben übertrifft SeedPolicy DP und andere IL-Baselines. Im Durchschnitt über CNN- und Transformer-Backbones hinweg erzielt SeedPolicy eine relative Verbesserung von 36,8 % unter sauberen Bedingungen und eine relative Verbesserung von 169 % unter randomisierten, anspruchsvollen Bedingungen gegenüber DP. Im Vergleich zu Vision-Language-Action-Modellen wie RDT mit 1,2 Mrd. Parametern erreicht SeedPolicy eine vergleichbare Leistung mit ein bis zwei Größenordnungen weniger Parametern, was auf hohe Effizienz und Skalierbarkeit hindeutet. Diese Ergebnisse etablieren SeedPolicy als eine state-of-the-art Imitation-Learning-Methode für langfristige robotische Manipulation. Code ist verfügbar unter: https://github.com/Youqiang-Gui/SeedPolicy.

English

Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.

SeedPolicy: Horizontale Skalierung durch selbst-evolvierende Diffusionspolitik für Robotermanipulation

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Zusammenfassung

Support