EgoPush: モバイルロボットのためのエンドツーエンドエゴセントリック多物体再配置学習
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
February 20, 2026
著者: Boyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng
cs.AI
要旨
人間は、自己中心的な知覚を用いて雑然とした環境内で物体を再配置し、大域座標に依存せずに遮蔽物を回避することができる。この能力に着想を得て、我々は単一の自己中心カメラを用いた移動ロボットのための長期間・多物体・把持を伴わない再配置タスクを研究する。本論文では、動的シーンで頻繁に失敗する明示的大域状態推定に依存しない、自己中心的で知覚駆動型の再配置を可能にする政策学習フレームワーク「EgoPush」を提案する。EgoPushは、絶対姿勢ではなく物体間の相対的空間関係を符号化する物体中心の潜在空間を設計する。この設計により、特権的強化学習(RL)教師は疎なキーポイントから潜在状態と移動動作を共同で学習し、その後、純粋に視覚的な学生政策へと蒸留される。全能的な教師と部分観測の学生の間の監督ギャップを軽減するため、教師の観測を視覚的にアクセス可能な手がかりに制限する。これにより、学生の視点から回復可能な能動的知覚行動が誘発される。長期的な信用割り当ての問題に対処するため、時間的に減衰する段階ローカル完了報酬を用いて、再配置タスクを段階レベルに分解する。大規模なシミュレーション実験により、EgoPushがエンドツーエンドRLベースラインを成功率で大幅に上回ることを示し、アブレーション研究により各設計選択を検証する。さらに、実世界の移動プラットフォームにおいてゼロショットのsim-to-real転移を実証する。コードとビデオはhttps://ai4ce.github.io/EgoPush/で公開されている。
English
Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.