Сбор данных с использованием состязательных методов: человеко-совместные возмущения для эффективного и устойчивого имитационного обучения роботов

Аннотация

Стремление к эффективности данных, где качество превосходит количество, стало краеугольным камнем в области роботизированной манипуляции, особенно учитывая высокие затраты, связанные с сбором данных в реальном мире. Мы предлагаем, что максимизация информационной плотности отдельных демонстраций может значительно снизить зависимость от крупномасштабных наборов данных, одновременно улучшая выполнение задач. Для этого мы представляем Adversarial Data Collection (ADC), фреймворк с участием человека в цикле (Human-in-the-Loop, HiL), который переосмысливает сбор данных для роботов через двунаправленное взаимодействие человека и среды в реальном времени. В отличие от традиционных подходов, пассивно записывающих статические демонстрации, ADC использует парадигму совместного возмущения: в течение одного эпизода оператор-адверсарий динамически изменяет состояния объектов, условия окружающей среды и языковые команды, в то время как телеоператор адаптивно корректирует действия для преодоления этих изменяющихся вызовов. Этот процесс сжимает разнообразные поведенческие паттерны восстановления после сбоев, вариации составных задач и возмущения окружающей среды в минимальные демонстрации. Наши эксперименты показывают, что модели, обученные с использованием ADC, достигают превосходной композиционной обобщаемости для невиданных ранее инструкций, повышенной устойчивости к перцептивным возмущениям и способности к спонтанному восстановлению после ошибок. Примечательно, что модели, обученные всего на 20% объема демонстраций, собранных через ADC, значительно превосходят традиционные подходы, использующие полные наборы данных. Эти достижения сокращают разрыв между ориентированными на данные парадигмами обучения и практическим внедрением роботов, демонстрируя, что стратегический сбор данных, а не только постобработка, критически важен для масштабируемого обучения роботов в реальном мире. Кроме того, мы создаем крупномасштабный набор данных ADC-Robotics, включающий задачи манипуляции в реальном мире с адверсариальными возмущениями. Этот эталонный набор данных будет открыт для содействия прогрессу в области имитационного обучения роботов.

English

The pursuit of data efficiency, where quality outweighs quantity, has emerged as a cornerstone in robotic manipulation, especially given the high costs associated with real-world data collection. We propose that maximizing the informational density of individual demonstrations can dramatically reduce reliance on large-scale datasets while improving task performance. To this end, we introduce Adversarial Data Collection, a Human-in-the-Loop (HiL) framework that redefines robotic data acquisition through real-time, bidirectional human-environment interactions. Unlike conventional pipelines that passively record static demonstrations, ADC adopts a collaborative perturbation paradigm: during a single episode, an adversarial operator dynamically alters object states, environmental conditions, and linguistic commands, while the tele-operator adaptively adjusts actions to overcome these evolving challenges. This process compresses diverse failure-recovery behaviors, compositional task variations, and environmental perturbations into minimal demonstrations. Our experiments demonstrate that ADC-trained models achieve superior compositional generalization to unseen task instructions, enhanced robustness to perceptual perturbations, and emergent error recovery capabilities. Strikingly, models trained with merely 20% of the demonstration volume collected through ADC significantly outperform traditional approaches using full datasets. These advances bridge the gap between data-centric learning paradigms and practical robotic deployment, demonstrating that strategic data acquisition, not merely post-hoc processing, is critical for scalable, real-world robot learning. Additionally, we are curating a large-scale ADC-Robotics dataset comprising real-world manipulation tasks with adversarial perturbations. This benchmark will be open-sourced to facilitate advancements in robotic imitation learning.

Сбор данных с использованием состязательных методов: человеко-совместные возмущения для эффективного и устойчивого имитационного обучения роботов

Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning

Аннотация

Support