EgoPush: Обучение сквозному эгоцентричному многообъектному переупорядочиванию для мобильных роботов

Аннотация

Люди способны переставлять объекты в загроможденной среде, используя эгоцентрическое восприятие и преодолевая окклюзии без глобальных координат. Вдохновленные этой способностью, мы исследуем задачу долгосрочной многопредметной перестановки без захвата для мобильных роботов с использованием единственной эгоцентрической камеры. Мы представляем EgoPush — фреймворк обучения политик, который позволяет осуществлять эгоцентрическую, управляемую восприятием перестановку без reliance на явную оценку глобального состояния, которая часто терпит неудачу в динамических сценах. EgoPush создает объектно-ориентированное латентное пространство для кодирования относительных пространственных отношений между объектами, а не их абсолютных поз. Такой подход позволяет привилегированному учителю с подкрепляющим обучением (RL) совместно изучать латентные состояния и мобильные действия на основе разреженных ключевых точек, после чего эти знания дистиллируются в чисто визуальную политику ученика. Чтобы сократить разрыв в информированности между всеведущим учителем и учеником с частичной наблюдаемостью, мы ограничиваем наблюдения учителя визуально доступными сигналами. Это порождает активное перцептивное поведение, которое может быть восстановлено с точки зрения ученика. Для решения проблемы долгосрочного распределения заслуг мы декомпозируем перестановку на подзадачи уровня этапов, используя временно затухающие, локальные для этапа награды за завершение. Многочисленные эксперименты в симуляции демонстрируют, что EgoPush значительно превосходит сквозные RL-базисы по показателю успешности, а ablation-исследования подтверждают обоснованность каждого проектного решения. Мы также демонстрируем zero-shot перенос из симуляции в реальность на мобильной платформе. Код и видео доступны по адресу https://ai4ce.github.io/EgoPush/.

English

Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.

EgoPush: Обучение сквозному эгоцентричному многообъектному переупорядочиванию для мобильных роботов

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Аннотация

Support