ArtHOI: Addomesticare i Modelli Fondamentali per la Ricostruzione Monoculare 4D delle Interazioni Mano-Oggetto Articolato
ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions
March 26, 2026
Autori: Zikai Wang, Zhilu Zhang, Yiqing Wang, Hui Li, Wangmeng Zuo
cs.AI
Abstract
I metodi esistenti per le interazioni mano-oggetto (HOI) sono largamente limitati agli oggetti rigidi, mentre i metodi di ricostruzione 4D per oggetti articolati richiedono generalmente una pre-scansione dell'oggetto o persino video multi-vista. Ricostruire interazioni 4D tra umani e oggetti articolati a partire da un singolo video RGB monoculare rimane una sfida inesplorata ma significativa. Fortunatamente, i recenti progressi nei modelli fondazionali presentano una nuova opportunità per affrontare questo problema altamente mal posto. A tal fine, introduciamo ArtHOI, un framework basato sull'ottimizzazione che integra e affina i priori provenienti da molteplici modelli fondazionali. Il nostro contributo principale è una serie di metodologie innovative progettate per risolvere le intrinseche imprecisioni e la mancanza di realismo fisico di questi priori. In particolare, introduciamo un metodo di Raffinamento Campionamento Adattivo (ASR) per ottimizzare la scala metrica e la posa dell'oggetto per ancorarne la mesh normalizzata nello spazio mondo. Inoltre, proponiamo un metodo di allineamento mano-oggetto guidato da un Modello Linguistico Multimodale di Grande Dimensione (MLLM), che utilizza informazioni di ragionamento sul contatto come vincoli per l'ottimizzazione della composizione delle mesh mano-oggetto. Per facilitare una valutazione completa, contribuiamo anche con due nuovi dataset, ArtHOI-RGBD e ArtHOI-Wild. Esperimenti estensivi convalidano la robustezza e l'efficacia del nostro ArtHOI su oggetti e interazioni diversificati. Progetto: https://arthoi-reconstruction.github.io.
English
Existing hand-object interactions (HOI) methods are largely limited to rigid objects, while 4D reconstruction methods of articulated objects generally require pre-scanning the object or even multi-view videos. It remains an unexplored but significant challenge to reconstruct 4D human-articulated-object interactions from a single monocular RGB video. Fortunately, recent advancements in foundation models present a new opportunity to address this highly ill-posed problem. To this end, we introduce ArtHOI, an optimization-based framework that integrates and refines priors from multiple foundation models. Our key contribution is a suite of novel methodologies designed to resolve the inherent inaccuracies and physical unreality of these priors. In particular, we introduce an Adaptive Sampling Refinement (ASR) method to optimize object's metric scale and pose for grounding its normalized mesh in world space. Furthermore, we propose a Multimodal Large Language Model (MLLM) guided hand-object alignment method, utilizing contact reasoning information as constraints of hand-object mesh composition optimization. To facilitate a comprehensive evaluation, we also contribute two new datasets, ArtHOI-RGBD and ArtHOI-Wild. Extensive experiments validate the robustness and effectiveness of our ArtHOI across diverse objects and interactions. Project: https://arthoi-reconstruction.github.io.