EgoPush : Apprentissage de la réorganisation multi-objets égocentrique de bout en bout pour robots mobiles
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
February 20, 2026
papers.authors: Boyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng
cs.AI
papers.abstract
Les humains peuvent réorganiser des objets dans des environnements encombrés en utilisant une perception égocentrique, en naviguant les occlusions sans coordonnées globales. Inspirés par cette capacité, nous étudions la réorganisation multi-objet non préhensile à long terme pour les robots mobiles en utilisant une seule caméra égocentrique. Nous présentons EgoPush, un cadre d'apprentissage par politiques qui permet une réorganisation égocentrique et pilotée par la perception sans dépendre d'une estimation explicite de l'état global qui échoue souvent dans les scènes dynamiques. EgoPush conçoit un espace latent centré sur les objets pour encoder les relations spatiales relatives entre les objets, plutôt que les poses absolues. Cette conception permet à un enseignant en apprentissage par renforcement (RL) privilégié d'apprendre conjointement les états latents et les actions mobiles à partir de points clés épars, qui sont ensuite distillés en une politique étudiante purement visuelle. Pour réduire l'écart de supervision entre l'enseignant omniscient et l'étudiant partiellement observé, nous restreignons les observations de l'enseignant aux indices visuellement accessibles. Cela induit des comportements de perception active qui sont récupérables du point de vue de l'étudiant. Pour adresser l'attribution de crédit à long terme, nous décomposons la réorganisation en sous-problèmes au niveau des étapes en utilisant des récompenses de complétion locales à l'étape et temporellement décomposées. Des expériences de simulation approfondies démontrent qu'EgoPush surpasse significativement les bases de référence RL de bout en bout en taux de succès, avec des études d'ablation validant chaque choix de conception. Nous démontrons en outre un transfert sim-to-real en zero-shot sur une plateforme mobile dans le monde réel. Le code et les vidéos sont disponibles à l'adresse https://ai4ce.github.io/EgoPush/.
English
Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.