EgoPush: End-to-End-Lernen von egozentrischer Mehrfachobjekt-Neuanordnung für mobile Roboter
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
February 20, 2026
papers.authors: Boyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng
cs.AI
papers.abstract
Menschen können Objekte in unübersichtlichen Umgebungen mittels egozentrischer Wahrnehmung umordnen und dabei Verdeckungen umgehen, ohne auf globale Koordinaten angewiesen zu sein. Inspiriert von dieser Fähigkeit untersuchen wir langfristige, multi-object, nicht-greifende Umordnungsaufgaben für mobile Roboter unter Verwendung einer einzigen egozentrischen Kamera. Wir stellen EgoPush vor, ein Framework zum Erlernen von Handlungsstrategien, das egozentrische, wahrnehmungsgesteuerte Umordnung ermöglicht, ohne auf explizite globale Zustandsschätzung angewiesen zu sein, die in dynamischen Szenen häufig versagt. EgoPush entwirft einen objektzentrierten latenten Raum, um relative räumliche Beziehungen zwischen Objekten anstelle absoluter Pose-Informationen zu kodieren. Dieser Ansatz ermöglicht es einem privilegierten Reinforcement-Learning (RL)-Lehrmodell, latente Zustände und mobile Aktionen gemeinsam aus spärlichen Keypoints zu erlernen, welche dann in eine rein visuelle Schüler-Strategie destilliert werden. Um die Überwachungslücke zwischen dem allwissenden Lehrer und dem teilweise beobachtenden Schüler zu verringern, beschränken wir die Beobachtungen des Lehrers auf visuell zugängliche Hinweise. Dies induziert aktive Wahrnehmungsverhalten, die aus der Perspektive des Schülers nachvollziehbar sind. Um die langfristige Kreditzuweisung zu adressieren, zerlegen wir die Umordnungsaufgabe in stufenbezogene Teilprobleme unter Verwendung von zeitlich abklingenden, stufenlokalen Abschlussbelohnungen. Umfangreiche Simulationsexperimente zeigen, dass EgoPush End-to-End-RL-Baselines in der Erfolgsquote signifikant übertrifft, wobei Ablationsstudien jede Designentscheidung validieren. Wir demonstrieren weiterhin null-shot Sim-to-Real-Transfer auf einer mobilen Plattform in der realen Welt. Code und Videos sind verfügbar unter https://ai4ce.github.io/EgoPush/.
English
Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.