ArtHOI: Gearticuleerde Mens-Object Interactiesynthese door 4D-reconstructie op basis van videovoorkennis

Samenvatting

Het synthetiseren van fysiek plausibele gearticuleerde mens-objectinteracties (HOI) zonder 3D/4D-supervisie blijft een fundamentele uitdaging. Hoewel recente zero-shot-benaderingen videodiffusiemodellen inzetten om mens-objectinteracties te synthetiseren, zijn deze grotendeels beperkt tot manipulatie van rigide objecten en ontbreekt het aan expliciete 4D-geometrische redenering. Om deze kloof te overbruggen, formuleren wij gearticuleerde HOI-synthese als een 4D-reconstructieprobleem vanuit monocular videopriors: uitgaande van alleen een door een diffusiemodel gegenereerde video, reconstrueren we een volledige gearticuleerde 4D-scène zonder enige 3D-supervisie. Deze op reconstructie gebaseerde aanpak behandelt de gegenereerde 2D-video als supervisie voor een inverse rendering-probleem, waarbij geometrisch consistente en fysiek plausibele 4D-scènes worden hersteld die van nature contact, articulatie en temporele coherentie respecteren. Wij introduceren ArtHOI, het eerste zero-shot-raamwerk voor gearticuleerde mens-objectinteractiesynthese via 4D-reconstructie vanuit videopriors. Onze belangrijkste ontwerpkeuzes zijn: 1) Op optische stroming gebaseerde partssegmentatie: het gebruik van optische stroming als geometrische cue om dynamische van statische regio's in monocular video te onderscheiden; 2) Ontkoppelde reconstructiepijplijn: gezamenlijke optimalisatie van menselijke beweging en objectarticulatie is instabiel onder monoculaire ambiguïteit, dus herstellen we eerst de objectarticulatie, en synthetiseren we vervolgens menselijke beweging geconditioneerd op de gereconstrueerde objecttoestanden. ArtHOI overbrugt op video gebaseerde generatie en geometrisch bewuste reconstructie, en produceert interacties die zowel semantisch uitgelijnd als fysiek onderbouwd zijn. Over diverse gearticuleerde scènes heen (bijv. het openen van koelkasten, kasten, magnetrons) presteert ArtHOI aanzienlijk beter dan eerdere methoden op het gebied van contactnauwkeurigheid, penetratiereductie en articulatiefideliteit, en breidt zero-shot-interactiesynthese uit voorbij rigide manipulatie door middel van reconstructie-geïnformeerde synthese.

English

Synthesizing physically plausible articulated human-object interactions (HOI) without 3D/4D supervision remains a fundamental challenge. While recent zero-shot approaches leverage video diffusion models to synthesize human-object interactions, they are largely confined to rigid-object manipulation and lack explicit 4D geometric reasoning. To bridge this gap, we formulate articulated HOI synthesis as a 4D reconstruction problem from monocular video priors: given only a video generated by a diffusion model, we reconstruct a full 4D articulated scene without any 3D supervision. This reconstruction-based approach treats the generated 2D video as supervision for an inverse rendering problem, recovering geometrically consistent and physically plausible 4D scenes that naturally respect contact, articulation, and temporal coherence. We introduce ArtHOI, the first zero-shot framework for articulated human-object interaction synthesis via 4D reconstruction from video priors. Our key designs are: 1) Flow-based part segmentation: leveraging optical flow as a geometric cue to disentangle dynamic from static regions in monocular video; 2) Decoupled reconstruction pipeline: joint optimization of human motion and object articulation is unstable under monocular ambiguity, so we first recover object articulation, then synthesize human motion conditioned on the reconstructed object states. ArtHOI bridges video-based generation and geometry-aware reconstruction, producing interactions that are both semantically aligned and physically grounded. Across diverse articulated scenes (e.g., opening fridges, cabinets, microwaves), ArtHOI significantly outperforms prior methods in contact accuracy, penetration reduction, and articulation fidelity, extending zero-shot interaction synthesis beyond rigid manipulation through reconstruction-informed synthesis.

ArtHOI: Gearticuleerde Mens-Object Interactiesynthese door 4D-reconstructie op basis van videovoorkennis

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Samenvatting

Support