EgoPush: Aprendizado de Rearranjo Multiobjeto Egocêntrico de Ponta a Ponta para Robôs Móveis
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
February 20, 2026
Autores: Boyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng
cs.AI
Resumo
Os seres humanos conseguem reorganizar objetos em ambientes desordenados usando percepção egocêntrica, navegando por oclusões sem coordenadas globais. Inspirados por essa capacidade, estudamos o rearranjo não preênsil de múltiplos objetos em horizontes temporais longos para robôs móveis, utilizando uma única câmera egocêntrica. Apresentamos o EgoPush, uma estrutura de aprendizagem por políticas que permite o rearranjo egocêntrico e orientado por percepção sem depender da estimativa explícita do estado global, que frequentemente falha em cenas dinâmicas. O EgoPush concebe um espaço latente centrado no objeto para codificar relações espaciais relativas entre os objetos, em vez de poses absolutas. Este projeto permite que um professor de aprendizagem por reforço (RL) privilegiado aprenda conjuntamente estados latentes e ações móveis a partir de pontos-chave esparsos, os quais são depois destilados numa política estudante puramente visual. Para reduzir o hiato de supervisão entre o professor onisciente e o estudante parcialmente observado, restringimos as observações do professor a pistas visualmente acessíveis. Isto induz comportamentos de percepção ativa que são recuperáveis a partir do ponto de vista do estudante. Para abordar a atribuição de crédito em horizontes longos, decompomos o rearranjo em subproblemas a nível de fase, utilizando recompensas de conclusão locais à fase e temporalmente decaídas. Extensas experiências de simulação demonstram que o EgoPush supera significativamente as linhas de base de RL de ponta a ponta na taxa de sucesso, com estudos de ablação a validar cada escolha de projeto. Demonstramos ainda a transferência *zero-shot* do simulador para o mundo real numa plataforma móvel. O código e os vídeos estão disponíveis em https://ai4ce.github.io/EgoPush/.
English
Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.