ArtHOI : Synthèse d'interactions homme-objet articulées par reconstruction 4D à partir d'a priori vidéo
ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors
March 4, 2026
Auteurs: Zihao Huang, Tianqi Liu, Zhaoxi Chen, Shaocong Xu, Saining Zhang, Lixing Xiao, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu
cs.AI
Résumé
La synthèse d'interactions humain-objet (IHO) articulées physiquement plausibles sans supervision 3D/4D reste un défi fondamental. Si les approches récentes sans apprentissage exploitent des modèles de diffusion vidéo pour synthétiser des interactions humain-objet, elles se limitent largement à la manipulation d'objets rigides et manquent de raisonnement géométrique 4D explicite. Pour combler cette lacune, nous formulons la synthèse d'IHO articulées comme un problème de reconstruction 4D à partir d'a priori vidéo monoculaire : étant donnée seulement une vidéo générée par un modèle de diffusion, nous reconstruisons une scène articulée 4D complète sans aucune supervision 3D. Cette approche basée sur la reconstruction traite la vidéo 2D générée comme une supervision pour un problème de rendu inverse, en retrouvant des scènes 4D géométriquement cohérentes et physiquement plausibles qui respectent naturellement le contact, l'articulation et la cohérence temporelle. Nous présentons ArtHOI, le premier cadre sans apprentissage pour la synthèse d'interactions humain-objet articulées via la reconstruction 4D à partir d'a priori vidéo. Nos conceptions clés sont : 1) Segmentation des parties basée sur le flot : exploitation du flot optique comme indice géométrique pour séparer les régions dynamiques des régions statiques dans une vidéo monoculaire ; 2) Pipeline de reconstruction découplée : l'optimisation conjointe du mouvement humain et de l'articulation de l'objet étant instable sous l'ambiguïté monoculaire, nous retrouvons d'abord l'articulation de l'objet, puis synthétisons le mouvement humain conditionné par les états reconstruits de l'objet. ArtHOI fait le lien entre la génération basée vidéo et la reconstruction sensible à la géométrie, produisant des interactions à la fois sémantiquement alignées et physiquement fondées. Sur diverses scènes articulées (par ex., ouvrir des réfrigérateurs, des armoires, des micro-ondes), ArtHOI surpasse significativement les méthodes antérieures en précision du contact, réduction des pénétrations et fidélité de l'articulation, étendant la synthèse d'interactions sans apprentissage au-delà de la manipulation rigide grâce à une synthèse éclairée par la reconstruction.
English
Synthesizing physically plausible articulated human-object interactions (HOI) without 3D/4D supervision remains a fundamental challenge. While recent zero-shot approaches leverage video diffusion models to synthesize human-object interactions, they are largely confined to rigid-object manipulation and lack explicit 4D geometric reasoning. To bridge this gap, we formulate articulated HOI synthesis as a 4D reconstruction problem from monocular video priors: given only a video generated by a diffusion model, we reconstruct a full 4D articulated scene without any 3D supervision. This reconstruction-based approach treats the generated 2D video as supervision for an inverse rendering problem, recovering geometrically consistent and physically plausible 4D scenes that naturally respect contact, articulation, and temporal coherence. We introduce ArtHOI, the first zero-shot framework for articulated human-object interaction synthesis via 4D reconstruction from video priors. Our key designs are: 1) Flow-based part segmentation: leveraging optical flow as a geometric cue to disentangle dynamic from static regions in monocular video; 2) Decoupled reconstruction pipeline: joint optimization of human motion and object articulation is unstable under monocular ambiguity, so we first recover object articulation, then synthesize human motion conditioned on the reconstructed object states. ArtHOI bridges video-based generation and geometry-aware reconstruction, producing interactions that are both semantically aligned and physically grounded. Across diverse articulated scenes (e.g., opening fridges, cabinets, microwaves), ArtHOI significantly outperforms prior methods in contact accuracy, penetration reduction, and articulation fidelity, extending zero-shot interaction synthesis beyond rigid manipulation through reconstruction-informed synthesis.