SeedPolicy: Escalado de Horizonte mediante Política de Difusión de Autoevolución para la Manipulación Robótica

Resumen

El Aprendizaje por Imitación (IL) permite a los robots adquirir habilidades de manipulación a partir de demostraciones expertas. La Política de Difusión (DP) modela comportamientos expertos multimodales, pero sufre una degradación del rendimiento a medida que aumentan los horizontes de observación, lo que limita la manipulación de largo horizonte. Proponemos la Atención con Compuerta de Auto-Evolución (SEGA), un módulo temporal que mantiene un estado latente que evoluciona en el tiempo mediante atención con compuerta, permitiendo actualizaciones recurrentes eficientes que comprimen las observaciones de largo horizonte en una representación de tamaño fijo mientras filtran información temporal irrelevante. La integración de SEGA en DP da lugar a la Política de Difusión de Auto-Evolución (SeedPolicy), que resuelve el cuello de botella en el modelado temporal y permite una extensión escalable del horizonte con una sobrecarga moderada. En el benchmark RoboTwin 2.0 con 50 tareas de manipulación, SeedPolicy supera a DP y a otros métodos baseline de IL. Promediando tanto para backbones de CNN como de Transformer, SeedPolicy logra una mejora relativa del 36.8% en entornos limpios y del 169% en entornos desafiantes aleatorizados con respecto a DP. En comparación con modelos de visión-lenguaje-acción como RDT con 1.2B de parámetros, SeedPolicy logra un rendimiento competitivo con uno o dos órdenes de magnitud menos de parámetros, demostrando una fuerte eficiencia y escalabilidad. Estos resultados establecen a SeedPolicy como un método de aprendizaje por imitación de vanguardia para la manipulación robótica de largo horizonte. El código está disponible en: https://github.com/Youqiang-Gui/SeedPolicy.

English

Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.

SeedPolicy: Escalado de Horizonte mediante Política de Difusión de Autoevolución para la Manipulación Robótica

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Resumen

Support