Politique de Graines : Mise à l'échelle horizontale via une politique de diffusion auto-évolutive pour la manipulation robotique

Résumé

L'apprentissage par imitation (IL) permet aux robots d'acquérir des compétences de manipulation à partir de démonstrations expertes. La politique de diffusion (DP) modélise les comportements experts multimodaux mais subit une dégradation des performances à mesure que les horizons d'observation s'allongent, limitant ainsi la manipulation à long terme. Nous proposons le module temporel SEGA (Self-Evolving Gated Attention), qui maintient un état latent évolutif via une attention à porte, permettant des mises à jour récurrentes efficaces. Ce mécanisme comprime les observations à long horizon en une représentation de taille fixe tout en filtrant les informations temporelles non pertinentes. L'intégration de SEGA dans DP donne naissance à la SeedPolicy (Self-Evolving Diffusion Policy), qui résout le goulot d'étranglement de la modélisation temporelle et permet une extension scalable de l'horizon avec une surcharge modérée. Sur le benchmark RoboTwin 2.0 comprenant 50 tâches de manipulation, SeedPolicy surpasse DP et autres méthodes d'IL de référence. En moyenne sur les architectures CNN et Transformer, SeedPolicy obtient une amélioration relative de 36,8 % dans des conditions standards et de 169 % dans des conditions randomisées difficiles par rapport à DP. Comparée aux modèles vision-langage-action tels que RDT (1,2 milliard de paramètres), SeedPolicy atteint des performances compétitives avec un à deux ordres de grandeur de paramètres en moins, démontrant une forte efficacité et scalabilité. Ces résultats établissent SeedPolicy comme une méthode d'apprentissage par imitation de pointe pour la manipulation robotique à long terme. Le code est disponible à l'adresse : https://github.com/Youqiang-Gui/SeedPolicy.

English

Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.

Politique de Graines : Mise à l'échelle horizontale via une politique de diffusion auto-évolutive pour la manipulation robotique

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Résumé

Support