**SeedPolicy**: Escalonamento de Horizonte via Política de Difusão Autoevolutiva para Manipulação Robótica
SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation
March 5, 2026
Autores: Youqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Shuaicheng Liu
cs.AI
Resumo
A Imitação de Aprendizagem (IL) permite que robôs adquiram habilidades de manipulação a partir de demonstrações de especialistas. A Política de Difusão (DP) modela comportamentos especialistas multimodais, mas sofre degradação de desempenho à medida que os horizontes de observação aumentam, limitando a manipulação de longo horizonte. Propomos o Módulo de Atenção com Porta Auto-Evolutiva (SEGA), um módulo temporal que mantém um estado latente em evolução temporal via atenção com porta, permitindo atualizações recorrentes eficientes que comprimem observações de longo horizonte numa representação de tamanho fixo, filtrando ao mesmo tempo informações temporais irrelevantes. A integração do SEGA na DP resulta na Política de Difusão Auto-Evolutiva (SeedPolicy), que resolve o estrangulamento da modelação temporal e permite uma extensão escalável do horizonte com sobrecarga moderada. No benchmark RoboTwin 2.0 com 50 tarefas de manipulação, a SeedPolicy supera a DP e outras linhas de base de IL. Na média de ambas as arquiteturas base (CNN e Transformer), a SeedPolicy alcança uma melhoria relativa de 36,8% em configurações limpas e uma melhoria relativa de 169% em configurações desafiantes randomizadas em relação à DP. Comparada com modelos visão-linguagem-ação, como o RDT com 1,2 mil milhões de parâmetros, a SeedPolicy alcança um desempenho competitivo com uma a duas ordens de grandeza menos parâmetros, demonstrando forte eficiência e escalabilidade. Estes resultados estabelecem a SeedPolicy como um método state-of-the-art em imitação de aprendizagem para manipulação robótica de longo horizonte. O código está disponível em: https://github.com/Youqiang-Gui/SeedPolicy.
English
Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.