RoboPocket: Verbeter Robotbeleid Onmiddellijk met Je Telefoon

Samenvatting

De schaalbaarheid van imitatieleren wordt fundamenteel beperkt door de efficiëntie van gegevensverzameling. Hoewel handheld-interfaces zijn ontstaan als een schaalbare oplossing voor gegevensverwerving 'in het wild', opereren deze voornamelijk op een open-loop-manier: operators verzamelen blindelings demonstraties zonder de zwakke punten van het onderliggende beleid te kennen, wat leidt tot inefficiënte dekking van kritieke toestandsverdelingen. Daarentegen pakken interactieve methoden zoals DAgger covariaatverschuiving effectief aan, maar zijn afhankelijk van fysieke robotuitvoering, wat kostbaar en moeilijk op te schalen is. Om deze afweging te verzoenen, introduceren we RoboPocket, een draagbaar systeem dat Robot-Vrije Directe Beleidsiteratie mogelijk maakt met behulp van enkele consumentensmartphones. De kerninnovatie is een Remote Inference-framework dat de door het beleid voorspelde traject visualiseert via Augmented Reality (AR) Visual Foresight. Deze meeslepende feedback stelt verzamelaars in staat proactief mogelijke fouten te identificeren en de gegevensverzameling te richten op de zwakke regio's van het beleid, zonder een fysieke robot nodig te hebben. Bovendien implementeren we een asynchrone Online Finetuning-pijplijn die het beleid continu bijwerkt met binnenkomende gegevens, waardoor de leerloop effectief in minuten wordt gesloten. Uitgebreide experimenten tonen aan dat RoboPocket voldoet aan de schaalwetten voor gegevens en de gegevensefficiëntie verdubbelt in vergelijking met offline schaalstrategieën, waardoor hun lang bestaande efficiëntieknelpunt wordt overwonnen. Bovendien verhoogt onze directe iteratielus ook de steekproefefficiëntie met tot 2x in gedistribueerde omgevingen met een klein aantal interactieve correcties per persoon. Projectpagina en video's: https://robo-pocket.github.io.

English

Scaling imitation learning is fundamentally constrained by the efficiency of data collection. While handheld interfaces have emerged as a scalable solution for in-the-wild data acquisition, they predominantly operate in an open-loop manner: operators blindly collect demonstrations without knowing the underlying policy's weaknesses, leading to inefficient coverage of critical state distributions. Conversely, interactive methods like DAgger effectively address covariate shift but rely on physical robot execution, which is costly and difficult to scale. To reconcile this trade-off, we introduce RoboPocket, a portable system that enables Robot-Free Instant Policy Iteration using single consumer smartphones. Its core innovation is a Remote Inference framework that visualizes the policy's predicted trajectory via Augmented Reality (AR) Visual Foresight. This immersive feedback allows collectors to proactively identify potential failures and focus data collection on the policy's weak regions without requiring a physical robot. Furthermore, we implement an asynchronous Online Finetuning pipeline that continuously updates the policy with incoming data, effectively closing the learning loop in minutes. Extensive experiments demonstrate that RoboPocket adheres to data scaling laws and doubles the data efficiency compared to offline scaling strategies, overcoming their long-standing efficiency bottleneck. Moreover, our instant iteration loop also boosts sample efficiency by up to 2times in distributed environments a small number of interactive corrections per person. Project page and videos: https://robo-pocket.github.io.

RoboPocket: Verbeter Robotbeleid Onmiddellijk met Je Telefoon

RoboPocket: Improve Robot Policies Instantly with Your Phone

Samenvatting

Support