SeedPolicy: Масштабирование горизонта с помощью саморазвивающейся политики диффузии для манипуляций роботов

Аннотация

Обучение с подражанием (IL) позволяет роботам осваивать манипуляционные навыки на основе экспертных демонстраций. Метод Diffusion Policy (DP) моделирует многомодальное поведение эксперта, но страдает от деградации производительности с увеличением горизонта наблюдения, что ограничивает его применение в задачах долгосрочного манипулирования. Мы предлагаем модуль Self-Evolving Gated Attention (SEGA), который поддерживает эволюционирующее во времени латентное состояние с помощью механизма gated attention, обеспечивая эффективные рекуррентные обновления. Это позволяет сжимать наблюдения за длительный период в представление фиксированного размера, одновременно фильтруя нерелевантную временную информацию. Интеграция SEGA в DP дает метод Self-Evolving Diffusion Policy (SeedPolicy), который устраняет узкое место временного моделирования и позволяет масштабируемо расширять горизонт планирования с умеренными вычислительными затратами. На наборе данных RoboTwin 2.0, содержащем 50 задач манипулирования, SeedPolicy превосходит DP и другие базовые методы IL. В среднем для бэкбонов на основе CNN и Transformer SeedPolicy демонстрирует относительное улучшение на 36.8% в чистых условиях и на 169% в усложненных рандомизированных условиях по сравнению с DP. По сравнению с моделями типа «визуальный язык-действие», такими как RDT с 1.2 млрд параметров, SeedPolicy показывает сопоставимую производительность, используя на один-два порядка меньше параметров, что демонстрирует высокую эффективность и масштабируемость. Эти результаты устанавливают SeedPolicy как передовой метод обучения с подражанием для долгосрочного роботизированного манипулирования. Код доступен по адресу: https://github.com/Youqiang-Gui/SeedPolicy.

English

Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.

SeedPolicy: Масштабирование горизонта с помощью саморазвивающейся политики диффузии для манипуляций роботов

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Аннотация

Support