EmbodMocap: In-the-Wild 4D-Mensch-Umgebung-Rekonstruktion für verkörperte Agenten

Zusammenfassung

Menschliche Verhaltensweisen in der realen Welt kodieren natürlicherweise reiche, langfristige kontextuelle Informationen, die genutzt werden können, um verkörperte Agenten für Wahrnehmung, Verständnis und Handeln zu trainieren. Bisherige Erfassungssysteme sind jedoch typischerweise auf kostspielige Studioaufbauten und Wearable-Geräte angewiesen, was die großflächige Sammlung von szenen-konditionierten menschlichen Bewegungsdaten in unkontrollierten Umgebungen einschränkt. Um dieses Problem zu lösen, schlagen wir EmbodMocap vor, eine portable und kostengünstige Datenerfassungs-Pipeline, die zwei bewegliche iPhones verwendet. Unser zentraler Ansatz ist die gemeinsame Kalibrierung dualer RGB-D-Sequenzen, um sowohl Menschen als auch Szenen innerhalb eines einheitlichen metrischen Weltkoordinatensystems zu rekonstruieren. Die vorgeschlagene Methode ermöglicht eine metrisch skalierte und szenenkonsistente Erfassung in alltäglichen Umgebungen ohne statische Kameras oder Marker und verbindet menschliche Bewegung und Szenengeometrie nahtlos. Im Vergleich mit Ground-Truth-Daten aus optischer Erfassung zeigen wir, dass die Dual-View-Konfiguration eine bemerkenswerte Fähigkeit besitzt, Tiefenmehrdeutigkeiten zu reduzieren, und eine überlegene Ausrichtung und Rekonstruktionsleistung gegenüber Single-iPhone- oder monokularen Modellen erzielt. Basierend auf den gesammelten Daten ermöglichen wir drei verkörperte KI-Aufgaben: monokulare Mensch-Szene-Rekonstruktion, bei der wir Forward-Modelle finetunen, die metrisch skalierte, weltraumausgerichtete Menschen und Szenen ausgeben; physikbasierte Charakteranimation, bei der wir nachweisen, dass unsere Daten genutzt werden können, um Mensch-Objekt-Interaktionsfähigkeiten und szenenbewusste Bewegungsverfolgung zu skalieren; und Roboterbewegungssteuerung, wo wir einen humanoiden Roboter mittels Sim-to-Real Reinforcement Learning trainieren, um in Videos dargestellte menschliche Bewegungen nachzuahmen. Experimentelle Ergebnisse validieren die Wirksamkeit unserer Pipeline und ihren Beitrag zur Weiterentwicklung der Forschung zu verkörperter KI.

English

Human behaviors in the real world naturally encode rich, long-term contextual information that can be leveraged to train embodied agents for perception, understanding, and acting. However, existing capture systems typically rely on costly studio setups and wearable devices, limiting the large-scale collection of scene-conditioned human motion data in the wild. To address this, we propose EmbodMocap, a portable and affordable data collection pipeline using two moving iPhones. Our key idea is to jointly calibrate dual RGB-D sequences to reconstruct both humans and scenes within a unified metric world coordinate frame. The proposed method allows metric-scale and scene-consistent capture in everyday environments without static cameras or markers, bridging human motion and scene geometry seamlessly. Compared with optical capture ground truth, we demonstrate that the dual-view setting exhibits a remarkable ability to mitigate depth ambiguity, achieving superior alignment and reconstruction performance over single iphone or monocular models. Based on the collected data, we empower three embodied AI tasks: monocular human-scene-reconstruction, where we fine-tune on feedforward models that output metric-scale, world-space aligned humans and scenes; physics-based character animation, where we prove our data could be used to scale human-object interaction skills and scene-aware motion tracking; and robot motion control, where we train a humanoid robot via sim-to-real RL to replicate human motions depicted in videos. Experimental results validate the effectiveness of our pipeline and its contributions towards advancing embodied AI research.

EmbodMocap: In-the-Wild 4D-Mensch-Umgebung-Rekonstruktion für verkörperte Agenten

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Zusammenfassung

Support