ChatPaper.aiChatPaper

GRAIL: Geração de Locomanipulação Humanoide a partir de Ativos 3D e Priores de Vídeo

GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors

June 3, 2026
Autores: Tianyi Xie, Haotian Zhang, Jinhyung Park, Zi Wang, Bowen Wen, Jiefeng Li, Xueting Li, Qingwei Ben, Haoyang Weng, Yufei Ye, David Minor, Tingwu Wang, Chenfanfu Jiang, Sanja Fidler, Jan Kautz, Linxi Fan, Yuke Zhu, Zhengyi Luo, Umar Iqbal, Ye Yuan
cs.AI

Resumo

Escalar a loco-manipulação humanóide requer demonstrações compatíveis com robôs em diversos objetos, movimentos de corpo inteiro e geometrias de cena, mas a teleoperação e a captura de movimento são difíceis de escalar porque cada coleta depende de configurações físicas, atores instrumentados e operação robótica. Apresentamos o GRAIL, um pipeline de geração digital que permanece completamente virtual até a implantação: ele compõe ativos 3D, cenas prontas para simuladores e priores de modelos fundamentais de vídeo (VFMs) para sintetizar interações sem reconstruir ambientes físicos ou teleoperar o robô. Em vez de reconstruir vídeos não restritos do mundo real, o GRAIL parte de configurações 3D totalmente especificadas nas quais a geometria do objeto, os parâmetros da câmera, a escala métrica, a profundidade do ambiente e um personagem com proporções robóticas são conhecidos antes da geração de vídeo e reutilizados durante a reconstrução. Essa configuração privilegiada condiciona melhor a recuperação 4D, permitindo rastreamento de objetos baseado em modelo, estimativa de movimento humano e otimização ciente da interação para reconstruir trajetórias métricas 4D de interação humano-objeto (IHO) com ambiguidade de profundidade e incompatibilidade morfológica reduzidas. Redirecionamos os movimentos recuperados para um robô humanóide e treinamos rastreadores complementares de tarefa geral: um adaptador latente ciente de objetos para manipulação e um rastreador ciente de cena para travessia de terreno. O GRAIL produz mais de 20.000 sequências abrangendo pegar, manipulação de objetos, sentar e travessia de terreno. Usando apenas dados gerados pelo GRAIL, treinamos políticas visuais egocêntricas por meio de um pipeline sim-para-real e as implantamos em um humanóide Unitree G1, alcançando 84% de sucesso no mundo real para pegar objetos diversos e 90% de sucesso para subir escadas.
English
Scaling humanoid loco-manipulation requires robot-compatible demonstrations across diverse objects, whole-body motions, and scene geometries, but teleoperation and motion capture are difficult to scale because each collection depends on physical setups, instrumented actors, and robot operation. We present GRAIL, a digital generation pipeline that remains fully virtual until deployment: it composes 3D assets, simulator-ready scenes, and priors from video foundation models (VFMs) to synthesize interactions without rebuilding physical environments or teleoperating the robot. Rather than reconstructing unconstrained in-the-wild videos, GRAIL starts from fully specified 3D configurations in which object geometry, camera parameters, metric scale, environment depth, and a robot-proportioned character are known before video generation and reused during reconstruction. This privileged setup better conditions 4D recovery, allowing model-based object tracking, human motion estimation, and interaction-aware optimization to reconstruct metric 4D human-object interaction (HOI) trajectories with reduced depth ambiguity and morphology mismatch. We retarget the recovered motions to a humanoid robot and train complementary task-general trackers: an object-aware latent adaptor for manipulation and a scene-aware tracker for terrain traversal. GRAIL produces over 20,000 sequences spanning pick-up, object manipulation, sitting, and terrain traversal. Using only GRAIL-generated data, we train egocentric visual policies through a sim-to-real pipeline and deploy them on a Unitree G1 humanoid, achieving 84\% real-world success on diverse object pick-up and 90\% success on stair-climbing.