EgoPush: Aprendizaje de Reorganización Egocéntrica Multiobjeto de Extremo a Extremo para Robots Móviles

Resumen

Los seres humanos pueden reorganizar objetos en entornos desordenados utilizando percepción egocéntrica, navegando oclusiones sin coordenadas globales. Inspirados por esta capacidad, estudiamos la reorganización no prensil de múltiples objetos a largo horizonte para robots móviles utilizando una única cámara egocéntrica. Presentamos EgoPush, un marco de aprendizaje de políticas que permite la reorganización egocéntrica impulsada por percepción, sin depender de la estimación explícita del estado global que suele fallar en escenas dinámicas. EgoPush diseña un espacio latente centrado en objetos para codificar relaciones espaciales relativas entre objetos, en lugar de poses absolutas. Este diseño permite que un profesor de aprendizaje por refuerzo (RL) privilegiado aprenda conjuntamente estados latentes y acciones móviles a partir de puntos clave dispersos, los cuales luego se destilan en una política estudiantil puramente visual. Para reducir la brecha de supervisión entre el profesor omnisciente y el estudiante parcialmente observado, restringimos las observaciones del profesor a señales visualmente accesibles. Esto induce comportamientos de percepción activa que son recuperables desde el punto de vista del estudiante. Para abordar la asignación de crédito a largo horizonte, descomponemos la reorganización en subproblemas a nivel de etapa utilizando recompensas de finalización locales por etapa y con decaimiento temporal. Extensos experimentos de simulación demuestran que EgoPush supera significativamente a los métodos base de RL de extremo a extremo en tasa de éxito, con estudios de ablación que validan cada decisión de diseño. Además, demostramos la transferencia *zero-shot* de simulación a realidad en una plataforma móvil en el mundo real. El código y los vídeos están disponibles en https://ai4ce.github.io/EgoPush/.

English

Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.

EgoPush: Aprendizaje de Reorganización Egocéntrica Multiobjeto de Extremo a Extremo para Robots Móviles

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Resumen

Support