GRAIL: Het genereren van humanoïde loco-manipulatie vanuit 3D-assets en videopriors

Samenvatting

Het schalen van mensachtige loco-manipulatie vereist robot-compatibele demonstraties over diverse objecten, volledige lichaamsbewegingen en scènegeometrieën, maar teleoperatie en motion capture zijn moeilijk te schalen omdat elke verzameling afhankelijk is van fysieke opstellingen, geïnstrumenteerde acteurs en robotoperatie. We presenteren GRAIL, een digitale generatiepijplijn die volledig virtueel blijft tot implementatie: het stelt 3D-assets, simulator-klare scènes en voorkennis uit videofundamentmodellen (VFMs) samen om interacties te synthetiseren zonder fysieke omgevingen te herbouwen of de robot te teleopereren. In plaats van ongecontroleerde in-the-wild video's te reconstrueren, begint GRAIL met volledig gespecificeerde 3D-configuraties waarin objectgeometrie, cameraparameters, metrische schaal, omgevingsdiepte en een robot-proportioneel personage bekend zijn vóór videogeneratie en worden hergebruikt tijdens reconstructie. Deze geprivilegieerde opstelling zorgt voor een betere conditionering van 4D-herstel, waardoor modelgebaseerde objecttracking, menselijke bewegingsschatting en interactiebewuste optimalisatie metrische 4D-trajecten van mens-object interactie (HOI) kunnen reconstructen met verminderde diepteambiguïteit en morfologische mismatch. We hertargeten de teruggevonden bewegingen naar een mensachtige robot en trainen complementaire taakalgemene trackers: een objectbewuste latente adapter voor manipulatie en een scènabewuste tracker voor terreinovergang. GRAIL produceert meer dan 20.000 sequenties die oppakken, objectmanipulatie, zitten en terreinovergang omvatten. Met alleen door GRAIL gegenereerde data trainen we egocentrische visuele beleidsstrategieën via een sim-to-real pijplijn en implementeren deze op een Unitree G1 mensachtige robot, wat resulteert in 84% succes in de echte wereld bij het oppakken van diverse objecten en 90% succes bij het beklimmen van trappen.

English

Scaling humanoid loco-manipulation requires robot-compatible demonstrations across diverse objects, whole-body motions, and scene geometries, but teleoperation and motion capture are difficult to scale because each collection depends on physical setups, instrumented actors, and robot operation. We present GRAIL, a digital generation pipeline that remains fully virtual until deployment: it composes 3D assets, simulator-ready scenes, and priors from video foundation models (VFMs) to synthesize interactions without rebuilding physical environments or teleoperating the robot. Rather than reconstructing unconstrained in-the-wild videos, GRAIL starts from fully specified 3D configurations in which object geometry, camera parameters, metric scale, environment depth, and a robot-proportioned character are known before video generation and reused during reconstruction. This privileged setup better conditions 4D recovery, allowing model-based object tracking, human motion estimation, and interaction-aware optimization to reconstruct metric 4D human-object interaction (HOI) trajectories with reduced depth ambiguity and morphology mismatch. We retarget the recovered motions to a humanoid robot and train complementary task-general trackers: an object-aware latent adaptor for manipulation and a scene-aware tracker for terrain traversal. GRAIL produces over 20,000 sequences spanning pick-up, object manipulation, sitting, and terrain traversal. Using only GRAIL-generated data, we train egocentric visual policies through a sim-to-real pipeline and deploy them on a Unitree G1 humanoid, achieving 84\% real-world success on diverse object pick-up and 90\% success on stair-climbing.