RoboPocket: Мгновенное улучшение политик роботов с помощью вашего телефона

Аннотация

Масштабирование обучения с подражанием фундаментально ограничено эффективностью сбора данных. Хотя ручные интерфейсы стали масштабируемым решением для сбора данных в естественных условиях, они в основном работают в разомкнутом контуре: операторы вслепую собирают демонстрации, не зная слабых мест базовой политики, что приводит к неэффективному охвату критически важных распределений состояний. В то же время интерактивные методы, такие как DAgger, эффективно решают проблему ковариатного сдвига, но полагаются на физическое выполнение действий роботом, что дорого и сложно масштабировать. Чтобы разрешить это противоречие, мы представляем RoboPocket — портативную систему, которая обеспечивает мгновенную итерацию политики без робота с использованием одного смартфона потребительского класса. Её ключевая инновация — это фреймворк удаленного вывода, который визуализирует прогнозируемую траекторию политики с помощью дополненной реальности (AR) и визуального предвидения. Эта иммерсивная обратная связь позволяет сборщикам proactively выявлять потенциальные сбои и концентрировать сбор данных на слабых участках политики без необходимости использования физического робота. Кроме того, мы реализовали асинхронный конвейер онлайн-дообучения, который непрерывно обновляет политику поступающими данными, эффективно замыкая цикл обучения за считанные минуты. Многочисленные эксперименты демонстрируют, что RoboPocket подчиняется законам масштабирования данных и удваивает эффективность данных по сравнению с офлайн-стратегиями масштабирования, преодолевая их давний узкий по эффективности. Более того, наш мгновенный цикл итераций также повышает эффективность использования образцов до 2 раз в распределенных средах при небольшом количестве интерактивных исправлений на человека. Страница проекта и видео: https://robo-pocket.github.io.

English

Scaling imitation learning is fundamentally constrained by the efficiency of data collection. While handheld interfaces have emerged as a scalable solution for in-the-wild data acquisition, they predominantly operate in an open-loop manner: operators blindly collect demonstrations without knowing the underlying policy's weaknesses, leading to inefficient coverage of critical state distributions. Conversely, interactive methods like DAgger effectively address covariate shift but rely on physical robot execution, which is costly and difficult to scale. To reconcile this trade-off, we introduce RoboPocket, a portable system that enables Robot-Free Instant Policy Iteration using single consumer smartphones. Its core innovation is a Remote Inference framework that visualizes the policy's predicted trajectory via Augmented Reality (AR) Visual Foresight. This immersive feedback allows collectors to proactively identify potential failures and focus data collection on the policy's weak regions without requiring a physical robot. Furthermore, we implement an asynchronous Online Finetuning pipeline that continuously updates the policy with incoming data, effectively closing the learning loop in minutes. Extensive experiments demonstrate that RoboPocket adheres to data scaling laws and doubles the data efficiency compared to offline scaling strategies, overcoming their long-standing efficiency bottleneck. Moreover, our instant iteration loop also boosts sample efficiency by up to 2times in distributed environments a small number of interactive corrections per person. Project page and videos: https://robo-pocket.github.io.

RoboPocket: Мгновенное улучшение политик роботов с помощью вашего телефона

RoboPocket: Improve Robot Policies Instantly with Your Phone

Аннотация

Support