SeedPolicy: Scalabilità Orizzontale tramite Politica di Diffusione Auto-Evolvente per la Manipolazione Robotica

Abstract

L'Imitation Learning (IL) consente ai robot di acquisire abilità di manipolazione a partire da dimostrazioni esperte. I modelli Diffusion Policy (DP) rappresentano comportamenti esperti multimodali, ma subiscono un degrado delle prestazioni all'aumentare degli orizzonti di osservazione, limitando la manipolazione a lungo orizzonte. Proponiamo il Self-Evolving Gated Attention (SEGA), un modulo temporale che mantiene uno stato latente in evoluzione temporale tramite un meccanismo di attenzione controllata (gated), consentendo aggiornamenti ricorrenti efficienti che comprimono le osservazioni a lungo orizzonte in una rappresentazione di dimensione fissa, filtrando al contempo le informazioni temporali irrilevanti. L'integrazione di SEGA in DP dà vita alla Self-Evolving Diffusion Policy (SeedPolicy), che risolve il collo di bottiglia nella modellazione temporale e consente un'estensione scalabile dell'orizzonte con un sovraccarico moderato. Sul benchmark RoboTwin 2.0 con 50 compiti di manipolazione, SeedPolicy supera DP e altri metodi baseline di IL. In media, considerando sia backbone CNN che Transformer, SeedPolicy raggiunge un miglioramento relativo del 36.8% in condizioni standard e del 169% in condizioni randomizzate complesse rispetto al DP. Rispetto a modelli visione-linguaggio-azione come RDT con 1.2 miliardi di parametri, SeedPolicy ottiene prestazioni competitive con uno o due ordini di grandezza in meno di parametri, dimostrando una forte efficienza e scalabilità. Questi risultati stabiliscono SeedPolicy come un metodo di imitation learning all'avanguardia per la manipolazione robotica a lungo orizzonte. Il codice è disponibile all'indirizzo: https://github.com/Youqiang-Gui/SeedPolicy.

English

Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.

SeedPolicy: Scalabilità Orizzontale tramite Politica di Diffusione Auto-Evolvente per la Manipolazione Robotica

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Abstract

Support