EgoPush: 모바일 로봇을 위한 종단 간 자기 중심 다중 객체 재배치 학습
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
February 20, 2026
저자: Boyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng
cs.AI
초록
사람은 자기 중심적 시각을 통해 복잡한 환경에서 물체를 재배치할 수 있으며, 전역 좌표계 없이도 가려진 부분을 탐색합니다. 이러한 능력에서 영감을 얻어, 우리는 단일 자기 중심 카메라를 사용한 이동 로봇의 장기간 다중 객체 비 파지 재배치 문제를 연구합니다. 우리는 동적인 장면에서 자주 실패하는 명시적 전역 상태 추정에 의존하지 않고 자기 중심적이고 인식 주도의 재배치를 가능하게 하는 정책 학습 프레임워크인 EgoPush를 제안합니다. EgoPush는 객체의 절대적 자세보다는 객체 간 상대적 공간 관계를 인코딩하기 위해 객체 중심 잠재 공간을 설계합니다. 이 설계는 권위적 강화 학습 교사가 희소 키포인트로부터 잠재 상태와 이동 동작을 공동 학습한 후, 이를 순수 시각적 학생 정책으로 증류할 수 있게 합니다. 전지전능한 교사와 부분적 관측만 가능한 학생 간의 감독 격차를 줄이기 위해, 우리는 교사의 관측을 시각적으로 접근 가능한 단서로 제한합니다. 이는 학생의 시점에서 복구 가능한 능동적 인식 행동을 유도합니다. 장기간 신용 할당 문제를 해결하기 위해, 우리는 시간에 따라 감쇠하는 단계별 완료 보상을 사용하여 재배치 작업을 단계 수준의 하위 문제로 분해합니다. 대규모 시뮬레이션 실험을 통해 EgoPush가 성공률 측면에서 종단간 강화 학습 기준선을 크게 능가함을 입증하며, 각 설계 선택의 타당성을 검증하는 모듈별 연구를 수행했습니다. 또한 실제 환경의 이동 플랫폼에서 제로샷 시뮬레이션-투-리얼 전이를 추가로 입증합니다. 코드와 동영상은 https://ai4ce.github.io/EgoPush/에서 확인할 수 있습니다.
English
Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.