EgoPush: End-to-end leren van egocentrische herschikking van meerdere objecten voor mobierobots
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
February 20, 2026
Auteurs: Boyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng
cs.AI
Samenvatting
Mensen kunnen objecten in rommelige omgevingen herschikken met behulp van egocentrische perceptie, waarbij ze occlusies navigeren zonder globale coördinaten. Geïnspireerd door deze capaciteit bestuderen we langetermijn, multi-object, niet-grijpbare herschikking voor mobiele robots met een enkele egocentrische camera. We introduceren EgoPush, een raamwerk voor beleidsleren dat egocentrische, perceptiegestuurde herschikking mogelijk maakt zonder te vertrouwen op expliciete globale toestandsschatting, die vaak faalt in dynamische scènes. EgoPush ontwerpt een objectgecentreerde latente ruimte om relatieve ruimtelijke relaties tussen objecten te coderen, in plaats van absolute posities. Dit ontwerp stelt een geprivilegieerde reinforcement learning (RL) leraar in staat om gezamenlijk latente toestanden en mobiele acties te leren van schaarse keypoints, die vervolgens worden gedistilleerd in een puur visueel studentenbeleid. Om het toezichtverschil tussen de alwetende leraar en de gedeeltelijk geobserveerde student te verkleinen, beperken we de waarnemingen van de leraar tot visueel toegankelijke signalen. Dit induceert actieve perceptiegedragingen die herstelbaar zijn vanuit het gezichtspunt van de student. Om langetermijn credit assignment aan te pakken, ontbinden we herschikking in fasegewijze deelproblemen met behulp van tijdelijk vervallende, fase-lokale voltooiingsbeloningen. Uitgebreide simulatie-experimenten tonen aan dat EgoPush end-to-end RL-baselines significant overtreft in slagingspercentage, waarbij ablatiestudies elke ontwerpkeuze valideren. We demonstreren verder zero-shot sim-to-real transfer op een mobiel platform in de echte wereld. Code en video's zijn beschikbaar op https://ai4ce.github.io/EgoPush/.
English
Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.