ArtHOI: Sintesi dell'Interazione Articolata Umano-Oggetto mediante Ricostruzione 4D da Priori Video
ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors
March 4, 2026
Autori: Zihao Huang, Tianqi Liu, Zhaoxi Chen, Shaocong Xu, Saining Zhang, Lixing Xiao, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu
cs.AI
Abstract
La sintesi di interazioni fisicamente plausibili tra esseri umani e oggetti articolati (HOI) senza supervisione 3D/4D rimane una sfida fondamentale. Sebbene i recenti approcci zero-shot sfruttino modelli di diffusione video per sintetizzare interazioni uomo-oggetto, questi sono prevalentemente confinati alla manipolazione di oggetti rigidi e mancano di un ragionamento geometrico 4D esplicito. Per colmare questa lacuna, formuliamo la sintesi di HOI articolati come un problema di ricostruzione 4D a partire da prior video monoculari: dato solo un video generato da un modello di diffusione, ricostruiamo una scena articolata 4D completa senza alcuna supervisione 3D. Questo approccio basato sulla ricostruzione tratta il video 2D generato come supervisione per un problema di inverse rendering, recuperando scene 4D geometricamente consistenti e fisicamente plausibili che rispettano naturalmente il contatto, l'articolazione e la coerenza temporale. Introduciamo ArtHOI, il primo framework zero-shot per la sintesi di interazioni umano-oggetto articolate tramite ricostruzione 4D da prior video. Le nostre scelte progettuali chiave sono: 1) Segmentazione delle parti basata sul flusso ottico: sfruttiamo il flusso ottico come indizio geometrico per separare le regioni dinamiche da quelle statiche in un video monoculare; 2) Pipeline di ricostruzione disaccoppiata: l'ottimizzazione congiunta del movimento umano e dell'articolazione dell'oggetto è instabile a causa dell'ambiguità monoculare, quindi recuperiamo prima l'articolazione dell'oggetto, per poi sintetizzare il movimento umano condizionato dagli stati dell'oggetto ricostruiti. ArtHOI colma il divario tra generazione basata su video e ricostruzione consapevole della geometria, producendo interazioni sia semanticamente allineate che fisicamente fondate. In diverse scene articolate (ad esempio, aprire frigoriferi, armadi, microonde), ArtHOI supera significativamente i metodi precedenti in accuratezza del contatto, riduzione delle penetrazioni e fedeltà dell'articolazione, estendendo la sintesi zero-shot delle interazioni oltre la manipolazione rigida attraverso una sintesi informata dalla ricostruzione.
English
Synthesizing physically plausible articulated human-object interactions (HOI) without 3D/4D supervision remains a fundamental challenge. While recent zero-shot approaches leverage video diffusion models to synthesize human-object interactions, they are largely confined to rigid-object manipulation and lack explicit 4D geometric reasoning. To bridge this gap, we formulate articulated HOI synthesis as a 4D reconstruction problem from monocular video priors: given only a video generated by a diffusion model, we reconstruct a full 4D articulated scene without any 3D supervision. This reconstruction-based approach treats the generated 2D video as supervision for an inverse rendering problem, recovering geometrically consistent and physically plausible 4D scenes that naturally respect contact, articulation, and temporal coherence. We introduce ArtHOI, the first zero-shot framework for articulated human-object interaction synthesis via 4D reconstruction from video priors. Our key designs are: 1) Flow-based part segmentation: leveraging optical flow as a geometric cue to disentangle dynamic from static regions in monocular video; 2) Decoupled reconstruction pipeline: joint optimization of human motion and object articulation is unstable under monocular ambiguity, so we first recover object articulation, then synthesize human motion conditioned on the reconstructed object states. ArtHOI bridges video-based generation and geometry-aware reconstruction, producing interactions that are both semantically aligned and physically grounded. Across diverse articulated scenes (e.g., opening fridges, cabinets, microwaves), ArtHOI significantly outperforms prior methods in contact accuracy, penetration reduction, and articulation fidelity, extending zero-shot interaction synthesis beyond rigid manipulation through reconstruction-informed synthesis.