EgoPush: Apprendimento End-to-End per il Riordinamento EgoCentrico di Oggetti Multipli in Robot Mobili

Abstract

Gli esseri umani possono riorganizzare oggetti in ambienti affollati utilizzando una percezione egocentrica, navigando tra le occlusioni senza coordinate globali. Ispirati da questa capacità, studiamo il riarrangiamento non prensile multi-oggetto a lungo orizzonte per robot mobili utilizzando una singola camera egocentrica. Introduciamo EgoPush, un framework per l'apprendimento di policy che abilita un riarrangiamento egocentrico e guidato dalla percezione senza fare affidamento su una stima esplicita dello stato globale, che spesso fallisce in scene dinamiche. EgoPush progetta uno spazio latente centrato sugli oggetti per codificare le relazioni spaziali relative tra gli oggetti, piuttosto che le pose assolute. Questo design consente a un insegnante di apprendimento per rinforzo (RL) privilegiato di apprendere congiuntamente stati latenti e azioni di movimento da keypoint sparsi, che vengono poi distillati in una policy studente puramente visiva. Per ridurre il divario di supervisione tra l'insegnante onnisciente e lo studente parzialmente osservato, limitiamo le osservazioni dell'insegnante a segnali visivamente accessibili. Ciò induce comportamenti di percezione attiva che sono recuperabili dal punto di vista dello studente. Per affrontare l'assegnazione del credito a lungo orizzonte, scomponiamo il riarrangiamento in sottoproblemi a livello di stadio utilizzando ricompense di completamento locali allo stadio e decadute temporalmente. Esperimenti simulativi estensivi dimostrano che EgoPush supera significativamente le baseline RL end-to-end nel tasso di successo, con studi di ablazione che convalidano ogni scelta progettuale. Dimostriamo inoltre un trasferimento zero-shot da simulazione a realtà su una piattaforma mobile nel mondo reale. Il codice e i video sono disponibili su https://ai4ce.github.io/EgoPush/.

English

Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.

EgoPush: Apprendimento End-to-End per il Riordinamento EgoCentrico di Oggetti Multipli in Robot Mobili

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Abstract

Support