EmbodMocap: Реконструкция человека и сцены в 4D в естественных условиях для воплощенных агентов

Аннотация

Поведение человека в реальном мире естественным образом кодирует богатую долгосрочную контекстную информацию, которую можно использовать для обучения воплощенных агентов восприятию, пониманию и действию. Однако существующие системы захвата обычно полагаются на дорогостоящие студийные установки и носимые устройства, что ограничивает масштабный сбор данных о движении человека в естественных условиях с привязкой к сцене. Чтобы решить эту проблему, мы предлагаем EmbodMocap — портативный и доступный конвейер сбора данных с использованием двух движущихся iPhone. Наша ключевая идея заключается в совместной калибровке двойных последовательностей RGB-D для реконструкции как людей, так и сцен в единой мировой системе координат. Предлагаемый метод позволяет осуществлять захват в метрическом масштабе с согласованностью со сценой в повседневных условиях без статичных камер или маркеров, бесшовно объединяя движение человека и геометрию сцены. По сравнению с эталонными данными оптического захвата мы демонстрируем, что двухракурсная конфигурация обладает выдающейся способностью снижать неоднозначность глубины, достигая превосходного выравнивания и производительности реконструкции по сравнению с моделями для одного iPhone или монокулярными моделями. На основе собранных данных мы расширяем возможности трех задач воплощенного ИИ: монокулярной реконструкции человека и сцены, где мы дообучаем прямые модели, выводящие людей и сцены в метрическом масштабе, выровненные в мировом пространстве; анимации персонажей на основе физики, где мы доказываем, что наши данные можно использовать для масштабирования навыков взаимодействия человека с объектами и отслеживания движения с учетом сцены; и управления движением робота, где мы обучаем гуманоидного робота с помощью RL sim-to-real для воспроизведения человеческих движений, показанных на видео. Результаты экспериментов подтверждают эффективность нашего конвейера и его вклад в развитие исследований в области воплощенного ИИ.

English

Human behaviors in the real world naturally encode rich, long-term contextual information that can be leveraged to train embodied agents for perception, understanding, and acting. However, existing capture systems typically rely on costly studio setups and wearable devices, limiting the large-scale collection of scene-conditioned human motion data in the wild. To address this, we propose EmbodMocap, a portable and affordable data collection pipeline using two moving iPhones. Our key idea is to jointly calibrate dual RGB-D sequences to reconstruct both humans and scenes within a unified metric world coordinate frame. The proposed method allows metric-scale and scene-consistent capture in everyday environments without static cameras or markers, bridging human motion and scene geometry seamlessly. Compared with optical capture ground truth, we demonstrate that the dual-view setting exhibits a remarkable ability to mitigate depth ambiguity, achieving superior alignment and reconstruction performance over single iphone or monocular models. Based on the collected data, we empower three embodied AI tasks: monocular human-scene-reconstruction, where we fine-tune on feedforward models that output metric-scale, world-space aligned humans and scenes; physics-based character animation, where we prove our data could be used to scale human-object interaction skills and scene-aware motion tracking; and robot motion control, where we train a humanoid robot via sim-to-real RL to replicate human motions depicted in videos. Experimental results validate the effectiveness of our pipeline and its contributions towards advancing embodied AI research.

EmbodMocap: Реконструкция человека и сцены в 4D в естественных условиях для воплощенных агентов

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Аннотация

Support