RoboPocket: Melhore as Políticas de Robôs Instantaneamente com o Seu Telefone

Resumo

A escalabilidade da aprendizagem por imitação é fundamentalmente limitada pela eficiência da coleta de dados. Embora as interfaces portáteis tenham surgido como uma solução escalável para aquisição de dados em ambientes reais, elas operam predominantemente de forma de malha aberta: os operadores coletam demonstrações cegamente, sem conhecer as fraquezas da política subjacente, resultando numa cobertura ineficiente das distribuições de estado críticas. Por outro lado, métodos interativos como o DAgger abordam eficazmente o *covariate shift*, mas dependem da execução física do robô, o que é dispendioso e difícil de escalar. Para conciliar este conflito, apresentamos o RoboPocket, um sistema portátil que permite a Iteração de Política Instantânea sem Robô utilizando um único *smartphone* de consumo. A sua inovação central é uma estrutura de Inferência Remota que visualiza a trajetória prevista pela política através de Previsão Visual por Realidade Aumentada (RA). Este *feedback* imersivo permite que os coletores identifiquem proativamente falhas potenciais e foquem a coleta de dados nas regiões fracas da política, sem necessitar de um robô físico. Adicionalmente, implementamos um pipeline assíncrono de Ajuste Fino Online que atualiza continuamente a política com os dados recebidos, fechando efetivamente o ciclo de aprendizagem em minutos. Experimentos extensivos demonstram que o RoboPocket segue as leis de escalabilidade de dados e duplica a eficiência dos dados em comparação com estratégias de escalabilidade offline, superando o seu antigo estrangulamento de eficiência. Além disso, o nosso ciclo de iteração instantânea também aumenta a eficiência amostral em até 2 vezes em ambientes distribuídos com um pequeno número de correções interativas por pessoa. Página do projeto e vídeos: https://robo-pocket.github.io.

English

Scaling imitation learning is fundamentally constrained by the efficiency of data collection. While handheld interfaces have emerged as a scalable solution for in-the-wild data acquisition, they predominantly operate in an open-loop manner: operators blindly collect demonstrations without knowing the underlying policy's weaknesses, leading to inefficient coverage of critical state distributions. Conversely, interactive methods like DAgger effectively address covariate shift but rely on physical robot execution, which is costly and difficult to scale. To reconcile this trade-off, we introduce RoboPocket, a portable system that enables Robot-Free Instant Policy Iteration using single consumer smartphones. Its core innovation is a Remote Inference framework that visualizes the policy's predicted trajectory via Augmented Reality (AR) Visual Foresight. This immersive feedback allows collectors to proactively identify potential failures and focus data collection on the policy's weak regions without requiring a physical robot. Furthermore, we implement an asynchronous Online Finetuning pipeline that continuously updates the policy with incoming data, effectively closing the learning loop in minutes. Extensive experiments demonstrate that RoboPocket adheres to data scaling laws and doubles the data efficiency compared to offline scaling strategies, overcoming their long-standing efficiency bottleneck. Moreover, our instant iteration loop also boosts sample efficiency by up to 2times in distributed environments a small number of interactive corrections per person. Project page and videos: https://robo-pocket.github.io.