EmbodMocap: Ricostruzione 4D Uomo-Ambiente in Contesti Reali per Agenti Embodied

Abstract

I comportamenti umani nel mondo reale codificano naturalmente ricche informazioni contestuali a lungo termine che possono essere sfruttate per addestrare agenti embodied per la percezione, la comprensione e l'azione. Tuttavia, i sistemi di acquisizione esistenti si basano tipicamente su costose configurazioni da studio e dispositivi indossabili, limitando la raccolta su larga scala di dati sul movimento umano condizionati dalla scena in ambienti naturali. Per affrontare questo problema, proponiamo EmbodMocap, una pipeline portatile ed economica per la raccolta di dati che utilizza due iPhone in movimento. La nostra idea chiave è calibrare congiuntamente sequenze RGB-D duali per ricostruire sia gli esseri umani che le scene all'interno di un sistema di coordinate metrico mondiale unificato. Il metodo proposto consente un'acquisizione in scala metrica e coerente con la scena in ambienti quotidiani, senza telecamere statiche o marcatori, collegando perfettamente il movimento umano e la geometria della scena. Rispetto alla ground truth di acquisizione ottica, dimostriamo che la configurazione a doppia visuale mostra una notevole capacità di mitigare l'ambiguità della profondità, ottenendo prestazioni di allineamento e ricostruzione superiori rispetto a modelli monofone o monoculari. Sulla base dei dati raccolti, potenziamo tre compiti di intelligenza artificiale embodied: la ricostruzione monoscena umano-scena, in cui addestriamo modelli feedforward che restituiscono esseri umani e scene in scala metrica e allineati nello spazio mondiale; l'animazione di personaggi basata sulla fisica, dove dimostriamo che i nostri dati possono essere utilizzati per scalare le abilità di interazione uomo-oggetto e il motion tracking consapevole della scena; e il controllo del movimento dei robot, dove addestriamo un robot umanoide tramite apprendimento per rinforzo sim-to-real a replicare i movimenti umani raffigurati nei video. I risultati sperimentali convalidano l'efficacia della nostra pipeline e il suo contributo al progresso della ricerca sull'intelligenza artificiale embodied.

English

Human behaviors in the real world naturally encode rich, long-term contextual information that can be leveraged to train embodied agents for perception, understanding, and acting. However, existing capture systems typically rely on costly studio setups and wearable devices, limiting the large-scale collection of scene-conditioned human motion data in the wild. To address this, we propose EmbodMocap, a portable and affordable data collection pipeline using two moving iPhones. Our key idea is to jointly calibrate dual RGB-D sequences to reconstruct both humans and scenes within a unified metric world coordinate frame. The proposed method allows metric-scale and scene-consistent capture in everyday environments without static cameras or markers, bridging human motion and scene geometry seamlessly. Compared with optical capture ground truth, we demonstrate that the dual-view setting exhibits a remarkable ability to mitigate depth ambiguity, achieving superior alignment and reconstruction performance over single iphone or monocular models. Based on the collected data, we empower three embodied AI tasks: monocular human-scene-reconstruction, where we fine-tune on feedforward models that output metric-scale, world-space aligned humans and scenes; physics-based character animation, where we prove our data could be used to scale human-object interaction skills and scene-aware motion tracking; and robot motion control, where we train a humanoid robot via sim-to-real RL to replicate human motions depicted in videos. Experimental results validate the effectiveness of our pipeline and its contributions towards advancing embodied AI research.

EmbodMocap: Ricostruzione 4D Uomo-Ambiente in Contesti Reali per Agenti Embodied

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Abstract

Support