Сбор данных с использованием состязательных методов: человеко-совместные возмущения для эффективного и устойчивого имитационного обучения роботов
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning
March 14, 2025
Авторы: Siyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren
cs.AI
Аннотация
Стремление к эффективности данных, где качество превосходит количество, стало краеугольным камнем в области роботизированной манипуляции, особенно учитывая высокие затраты, связанные с сбором данных в реальном мире. Мы предлагаем, что максимизация информационной плотности отдельных демонстраций может значительно снизить зависимость от крупномасштабных наборов данных, одновременно улучшая выполнение задач. Для этого мы представляем Adversarial Data Collection (ADC), фреймворк с участием человека в цикле (Human-in-the-Loop, HiL), который переосмысливает сбор данных для роботов через двунаправленное взаимодействие человека и среды в реальном времени. В отличие от традиционных подходов, пассивно записывающих статические демонстрации, ADC использует парадигму совместного возмущения: в течение одного эпизода оператор-адверсарий динамически изменяет состояния объектов, условия окружающей среды и языковые команды, в то время как телеоператор адаптивно корректирует действия для преодоления этих изменяющихся вызовов. Этот процесс сжимает разнообразные поведенческие паттерны восстановления после сбоев, вариации составных задач и возмущения окружающей среды в минимальные демонстрации. Наши эксперименты показывают, что модели, обученные с использованием ADC, достигают превосходной композиционной обобщаемости для невиданных ранее инструкций, повышенной устойчивости к перцептивным возмущениям и способности к спонтанному восстановлению после ошибок. Примечательно, что модели, обученные всего на 20% объема демонстраций, собранных через ADC, значительно превосходят традиционные подходы, использующие полные наборы данных. Эти достижения сокращают разрыв между ориентированными на данные парадигмами обучения и практическим внедрением роботов, демонстрируя, что стратегический сбор данных, а не только постобработка, критически важен для масштабируемого обучения роботов в реальном мире. Кроме того, мы создаем крупномасштабный набор данных ADC-Robotics, включающий задачи манипуляции в реальном мире с адверсариальными возмущениями. Этот эталонный набор данных будет открыт для содействия прогрессу в области имитационного обучения роботов.
English
The pursuit of data efficiency, where quality outweighs quantity, has emerged
as a cornerstone in robotic manipulation, especially given the high costs
associated with real-world data collection. We propose that maximizing the
informational density of individual demonstrations can dramatically reduce
reliance on large-scale datasets while improving task performance. To this end,
we introduce Adversarial Data Collection, a Human-in-the-Loop (HiL) framework
that redefines robotic data acquisition through real-time, bidirectional
human-environment interactions. Unlike conventional pipelines that passively
record static demonstrations, ADC adopts a collaborative perturbation paradigm:
during a single episode, an adversarial operator dynamically alters object
states, environmental conditions, and linguistic commands, while the
tele-operator adaptively adjusts actions to overcome these evolving challenges.
This process compresses diverse failure-recovery behaviors, compositional task
variations, and environmental perturbations into minimal demonstrations. Our
experiments demonstrate that ADC-trained models achieve superior compositional
generalization to unseen task instructions, enhanced robustness to perceptual
perturbations, and emergent error recovery capabilities. Strikingly, models
trained with merely 20% of the demonstration volume collected through ADC
significantly outperform traditional approaches using full datasets. These
advances bridge the gap between data-centric learning paradigms and practical
robotic deployment, demonstrating that strategic data acquisition, not merely
post-hoc processing, is critical for scalable, real-world robot learning.
Additionally, we are curating a large-scale ADC-Robotics dataset comprising
real-world manipulation tasks with adversarial perturbations. This benchmark
will be open-sourced to facilitate advancements in robotic imitation learning.Summary
AI-Generated Summary