ChatPaper.aiChatPaper

로보포켓: 스마트폰으로 로봇 정책을 즉시 개선하다

RoboPocket: Improve Robot Policies Instantly with Your Phone

March 5, 2026
저자: Junjie Fang, Wendi Chen, Han Xue, Fangyuan Zhou, Tian Le, Yi Wang, Yuting Zhang, Jun Lv, Chuan Wen, Cewu Lu
cs.AI

초록

모방 학습의 확장은 근본적으로 데이터 수집 효율에 의해 제약을 받습니다. 핸드헬드 인터페이스가 실환경 데이터 획득을 위한 확장 가능한 솔루션으로 부상했지만, 이들은 주로 개방형 방식으로 운영됩니다: 운영자는 기저 정책의 약점을 알지 못한 채 시범 데이터를 수집하여 중요한 상태 분포에 대한 효율적인 커버리지 확보가 어렵습니다. 반면, DAgger와 같은 상호작용 방식은 공변량 변화 문제는 효과적으로 해결하지만 물리적 로봇 실행에 의존하여 비용이 많이 들고 확장하기 어렵습니다. 이러한 상충 관계를 해결하기 위해 우리는 단일 소비자 스마트폰을 사용하여 로봇 없이 즉각적인 정책 반복을 가능하게 하는 휴대형 시스템인 RoboPocket을 소개합니다. 핵심 혁신은 증강 현실(AR) 시각적 예측을 통해 정책의 예측 궤적을 시각화하는 원격 추론 프레임워크입니다. 이러한 몰입형 피드백을 통해 수집자는 물리적 로봇 없이도 잠재적 실패를 사전에 식별하고 정책의 취약 영역에 데이터 수집을 집중할 수 있습니다. 더 나아가, 유입되는 데이터로 정책을 지속적으로 업데이트하는 비동기식 온라인 미세 조정 파이프라인을 구현하여 학습 루프를 수분 내에 효과적으로 폐쇄합니다. 광범위한 실험을 통해 RoboPocket이 데이터 확장 법칙을 준수하며 오프라인 확장 전략 대비 데이터 효율성을 두 배로 높여 오랫동안 지속되어 온 효율성 병목 현상을 극복함을 입증했습니다. 또한, 우리의 즉각적 반복 루프는 분산 환경에서 사람당 소수의 상호작용적 수정만으로도 샘플 효율성을 최대 2배까지 향상시킵니다. 프로젝트 페이지 및 동영상: https://robo-pocket.github.io.
English
Scaling imitation learning is fundamentally constrained by the efficiency of data collection. While handheld interfaces have emerged as a scalable solution for in-the-wild data acquisition, they predominantly operate in an open-loop manner: operators blindly collect demonstrations without knowing the underlying policy's weaknesses, leading to inefficient coverage of critical state distributions. Conversely, interactive methods like DAgger effectively address covariate shift but rely on physical robot execution, which is costly and difficult to scale. To reconcile this trade-off, we introduce RoboPocket, a portable system that enables Robot-Free Instant Policy Iteration using single consumer smartphones. Its core innovation is a Remote Inference framework that visualizes the policy's predicted trajectory via Augmented Reality (AR) Visual Foresight. This immersive feedback allows collectors to proactively identify potential failures and focus data collection on the policy's weak regions without requiring a physical robot. Furthermore, we implement an asynchronous Online Finetuning pipeline that continuously updates the policy with incoming data, effectively closing the learning loop in minutes. Extensive experiments demonstrate that RoboPocket adheres to data scaling laws and doubles the data efficiency compared to offline scaling strategies, overcoming their long-standing efficiency bottleneck. Moreover, our instant iteration loop also boosts sample efficiency by up to 2times in distributed environments a small number of interactive corrections per person. Project page and videos: https://robo-pocket.github.io.
PDF304March 9, 2026