ArtHOI: Síntese de Interação Humano-Objeto Articulada por Reconstrução 4D a partir de Priores de Vídeo
ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors
March 4, 2026
Autores: Zihao Huang, Tianqi Liu, Zhaoxi Chen, Shaocong Xu, Saining Zhang, Lixing Xiao, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu
cs.AI
Resumo
A síntese de interações humano-objeto (IHO) articuladas fisicamente plausíveis sem supervisão 3D/4D permanece um desafio fundamental. Embora abordagens recentes *zero-shot* aproveitem modelos de difusão de vídeo para sintetizar interações humano-objeto, elas estão amplamente confinadas à manipulação de objetos rígidos e carecem de raciocínio geométrico 4D explícito. Para preencher esta lacuna, formulamos a síntese de IHO articulada como um problema de reconstrução 4D a partir de *priors* de vídeo monoculares: dado apenas um vídeo gerado por um modelo de difusão, reconstruímos uma cena articulada 4D completa sem qualquer supervisão 3D. Esta abordagem baseada em reconstrução trata o vídeo 2D gerado como supervisão para um problema de *inverse rendering*, recuperando cenas 4D geometricamente consistentes e fisicamente plausíveis que respeitam naturalmente o contato, a articulação e a coerência temporal. Apresentamos o ArtHOI, o primeiro framework *zero-shot* para síntese de interações humano-objeto articuladas via reconstrução 4D a partir de *priors* de vídeo. Nossos principais projetos são: 1) Segmentação de partes baseada em fluxo óptico: utilizando o fluxo óptico como uma pista geométrica para separar regiões dinâmicas das estáticas em vídeo monocular; 2) Pipeline de reconstrução desacoplado: a otimização conjunta do movimento humano e da articulação do objeto é instável sob ambiguidade monocular, portanto, primeiro recuperamos a articulação do objeto e depois sintetizamos o movimento humano condicionado aos estados do objeto reconstruídos. O ArtHOI faz a ponte entre a geração baseada em vídeo e a reconstrução consciente da geometria, produzindo interações que são semanticamente alinhadas e fisicamente fundamentadas. Em diversas cenas articuladas (ex.: abrir frigoríficos, armários, micro-ondas), o ArtHOI supera significativamente métodos anteriores em precisão de contato, redução de penetração e fidelidade de articulação, estendendo a síntese de interação *zero-shot* para além da manipulação rígida por meio de uma síntese informada pela reconstrução.
English
Synthesizing physically plausible articulated human-object interactions (HOI) without 3D/4D supervision remains a fundamental challenge. While recent zero-shot approaches leverage video diffusion models to synthesize human-object interactions, they are largely confined to rigid-object manipulation and lack explicit 4D geometric reasoning. To bridge this gap, we formulate articulated HOI synthesis as a 4D reconstruction problem from monocular video priors: given only a video generated by a diffusion model, we reconstruct a full 4D articulated scene without any 3D supervision. This reconstruction-based approach treats the generated 2D video as supervision for an inverse rendering problem, recovering geometrically consistent and physically plausible 4D scenes that naturally respect contact, articulation, and temporal coherence. We introduce ArtHOI, the first zero-shot framework for articulated human-object interaction synthesis via 4D reconstruction from video priors. Our key designs are: 1) Flow-based part segmentation: leveraging optical flow as a geometric cue to disentangle dynamic from static regions in monocular video; 2) Decoupled reconstruction pipeline: joint optimization of human motion and object articulation is unstable under monocular ambiguity, so we first recover object articulation, then synthesize human motion conditioned on the reconstructed object states. ArtHOI bridges video-based generation and geometry-aware reconstruction, producing interactions that are both semantically aligned and physically grounded. Across diverse articulated scenes (e.g., opening fridges, cabinets, microwaves), ArtHOI significantly outperforms prior methods in contact accuracy, penetration reduction, and articulation fidelity, extending zero-shot interaction synthesis beyond rigid manipulation through reconstruction-informed synthesis.