적대적 데이터 수집: 효율적이고 강인한 로봇 모방 학습을 위한 인간-협업적 섭동
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning
March 14, 2025
저자: Siyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren
cs.AI
초록
데이터의 양보다 질이 더 중요한 데이터 효율성 추구는, 특히 실제 세계 데이터 수집과 관련된 높은 비용을 고려할 때, 로봇 매니퓰레이션 분야의 핵심 요소로 부상했습니다. 우리는 개별 데모의 정보 밀도를 극대화함으로써 대규모 데이터셋에 대한 의존을 크게 줄이면서도 작업 성능을 향상시킬 수 있다고 제안합니다. 이를 위해, 우리는 실시간 양방향 인간-환경 상호작용을 통해 로봇 데이터 수집을 재정의하는 인간-루프(Human-in-the-Loop, HiL) 프레임워크인 적대적 데이터 수집(Adversarial Data Collection, ADC)을 소개합니다. 정적 데모를 수동적으로 기록하는 기존의 파이프라인과 달리, ADC는 협력적 교란 패러다임을 채택합니다: 단일 에피소드 동안, 적대적 운영자는 물체 상태, 환경 조건, 언어적 명령을 동적으로 변경하고, 원격 운영자는 이러한 변화하는 도전을 극복하기 위해 적응적으로 행동을 조정합니다. 이 과정은 다양한 실패-복구 행동, 구성적 작업 변형, 환경 교란을 최소한의 데모로 압축합니다. 우리의 실험은 ADC로 훈련된 모델이 보이지 않는 작업 지시에 대한 우수한 구성적 일반화, 지각적 교란에 대한 강건성, 그리고 발생적 오류 복구 능력을 달성함을 보여줍니다. 놀랍게도, ADC를 통해 수집된 데모 양의 단 20%만으로 훈련된 모델이 전체 데이터셋을 사용하는 전통적 접근법을 크게 능가합니다. 이러한 발전은 데이터 중심 학습 패러다임과 실제 로봇 배치 간의 격차를 줄이며, 전략적 데이터 수집이 단순히 사후 처리뿐만 아니라 확장 가능한 실제 세계 로봇 학습에 중요함을 입증합니다. 또한, 우리는 적대적 교란이 포함된 실제 세계 매니퓰레이션 작업으로 구성된 대규모 ADC-로보틱스 데이터셋을 구축 중입니다. 이 벤치마크는 로봇 모방 학습의 발전을 촉진하기 위해 오픈소스로 공개될 예정입니다.
English
The pursuit of data efficiency, where quality outweighs quantity, has emerged
as a cornerstone in robotic manipulation, especially given the high costs
associated with real-world data collection. We propose that maximizing the
informational density of individual demonstrations can dramatically reduce
reliance on large-scale datasets while improving task performance. To this end,
we introduce Adversarial Data Collection, a Human-in-the-Loop (HiL) framework
that redefines robotic data acquisition through real-time, bidirectional
human-environment interactions. Unlike conventional pipelines that passively
record static demonstrations, ADC adopts a collaborative perturbation paradigm:
during a single episode, an adversarial operator dynamically alters object
states, environmental conditions, and linguistic commands, while the
tele-operator adaptively adjusts actions to overcome these evolving challenges.
This process compresses diverse failure-recovery behaviors, compositional task
variations, and environmental perturbations into minimal demonstrations. Our
experiments demonstrate that ADC-trained models achieve superior compositional
generalization to unseen task instructions, enhanced robustness to perceptual
perturbations, and emergent error recovery capabilities. Strikingly, models
trained with merely 20% of the demonstration volume collected through ADC
significantly outperform traditional approaches using full datasets. These
advances bridge the gap between data-centric learning paradigms and practical
robotic deployment, demonstrating that strategic data acquisition, not merely
post-hoc processing, is critical for scalable, real-world robot learning.
Additionally, we are curating a large-scale ADC-Robotics dataset comprising
real-world manipulation tasks with adversarial perturbations. This benchmark
will be open-sourced to facilitate advancements in robotic imitation learning.Summary
AI-Generated Summary