ArtHOI: Síntesis de Interacción Humano-Objeto Articulada mediante Reconstrucción 4D a partir de Priores de Video

Resumen

La síntesis de interacciones plausibles entre humanos y objetos articulados (HOI) sin supervisión 3D/4D sigue siendo un desafío fundamental. Si bien los enfoques recientes *zero-shot* aprovechan modelos de difusión de video para sintetizar interacciones humano-objeto, se limitan en gran medida a la manipulación de objetos rígidos y carecen de un razonamiento geométrico 4D explícito. Para cerrar esta brecha, formulamos la síntesis de HOI articulada como un problema de reconstrucción 4D a partir de *priors* de video monoculares: dado solo un video generado por un modelo de difusión, reconstruimos una escena articulada 4D completa sin ninguna supervisión 3D. Este enfoque basado en la reconstrucción trata el video 2D generado como supervisión para un problema de *renderizado inverso*, recuperando escenas 4D geométricamente consistentes y físicamente plausibles que respetan naturalmente el contacto, la articulación y la coherencia temporal. Presentamos ArtHOI, el primer marco *zero-shot* para la síntesis de interacciones humano-objeto articuladas mediante reconstrucción 4D a partir de *priors* de video. Nuestros diseños clave son: 1) Segmentación de partes basada en flujo óptico: se aprovecha el flujo óptico como una señal geométrica para separar las regiones dinámicas de las estáticas en el video monocular; 2) Canalización de reconstrucción desacoplada: la optimización conjunta de la articulación del objeto y el movimiento humano es inestable bajo la ambigüedad monocular, por lo que primero recuperamos la articulación del objeto y luego sintetizamos el movimiento humano condicionado a los estados del objeto reconstruidos. ArtHOI tiende un puente entre la generación basada en video y la reconstrucción consciente de la geometría, produciendo interacciones que están tanto semánticamente alineadas como físicamente fundamentadas. En diversas escenas articuladas (por ejemplo, abrir neveras, armarios, microondas), ArtHOI supera significativamente a los métodos anteriores en precisión de contacto, reducción de penetraciones y fidelidad de articulación, extendiendo la síntesis de interacciones *zero-shot* más allá de la manipulación rígida mediante una síntesis informada por la reconstrucción.

English

Synthesizing physically plausible articulated human-object interactions (HOI) without 3D/4D supervision remains a fundamental challenge. While recent zero-shot approaches leverage video diffusion models to synthesize human-object interactions, they are largely confined to rigid-object manipulation and lack explicit 4D geometric reasoning. To bridge this gap, we formulate articulated HOI synthesis as a 4D reconstruction problem from monocular video priors: given only a video generated by a diffusion model, we reconstruct a full 4D articulated scene without any 3D supervision. This reconstruction-based approach treats the generated 2D video as supervision for an inverse rendering problem, recovering geometrically consistent and physically plausible 4D scenes that naturally respect contact, articulation, and temporal coherence. We introduce ArtHOI, the first zero-shot framework for articulated human-object interaction synthesis via 4D reconstruction from video priors. Our key designs are: 1) Flow-based part segmentation: leveraging optical flow as a geometric cue to disentangle dynamic from static regions in monocular video; 2) Decoupled reconstruction pipeline: joint optimization of human motion and object articulation is unstable under monocular ambiguity, so we first recover object articulation, then synthesize human motion conditioned on the reconstructed object states. ArtHOI bridges video-based generation and geometry-aware reconstruction, producing interactions that are both semantically aligned and physically grounded. Across diverse articulated scenes (e.g., opening fridges, cabinets, microwaves), ArtHOI significantly outperforms prior methods in contact accuracy, penetration reduction, and articulation fidelity, extending zero-shot interaction synthesis beyond rigid manipulation through reconstruction-informed synthesis.

ArtHOI: Síntesis de Interacción Humano-Objeto Articulada mediante Reconstrucción 4D a partir de Priores de Video

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Resumen

Support