ArtHOI: Domestizierung von Foundation Models für monokulare 4D-Rekonstruktion von Hand-Objekt-Interaktionen mit Artikulation
ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions
March 26, 2026
Autoren: Zikai Wang, Zhilu Zhang, Yiqing Wang, Hui Li, Wangmeng Zuo
cs.AI
Zusammenfassung
Bestehende Methoden zur Hand-Objekt-Interaktion (HOI) sind weitgehend auf starre Objekte beschränkt, während 4D-Rekonstruktionsverfahren für artikulierte Objekte in der Regel ein Vorab-Scannen des Objekts oder sogar Multi-View-Videos erfordern. Die Rekonstruktion von 4D-Mensch-Artikulations-Objekt-Interaktionen aus einem einzigen monokularen RGB-Video bleibt eine unerforschte, aber bedeutende Herausforderung. Glücklicherweise eröffnen jüngste Fortschritte bei Foundation-Modellen neue Möglichkeiten, dieses hochgradig schlecht gestellte Problem anzugehen. Zu diesem Zweck führen wir ArtHOI ein, ein optimierungsbasiertes Framework, das Priors aus mehreren Foundation-Modellen integriert und verfeinert. Unser zentraler Beitrag ist eine Reihe neuartiger Methoden, die entwickelt wurden, um die inhärenten Ungenauigkeiten und physikalischen Unrealismen dieser Priors zu beheben. Insbesondere führen wir eine Adaptive Sampling-Verfeinerung (ASR) ein, um den metrischen Maßstab und die Pose des Objekts zu optimieren und dessen normalisiertes Mesh im Weltraum zu verankern. Darüber hinaus schlagen wir eine multimodale Large Language Model (MLLM)-gestützte Hand-Objekt-Ausrichtungsmethode vor, die Kontaktinformationen als Constraints für die Hand-Objekt-Mesh-Kompositionsoptimierung nutzt. Um eine umfassende Evaluation zu ermöglichen, stellen wir außerdem zwei neue Datensätze bereit: ArtHOI-RGBD und ArtHOI-Wild. Umfangreiche Experimente validieren die Robustheit und Effektivität unseres ArtHOI-Ansatzes über diverse Objekte und Interaktionen hinweg. Projekt: https://arthoi-reconstruction.github.io.
English
Existing hand-object interactions (HOI) methods are largely limited to rigid objects, while 4D reconstruction methods of articulated objects generally require pre-scanning the object or even multi-view videos. It remains an unexplored but significant challenge to reconstruct 4D human-articulated-object interactions from a single monocular RGB video. Fortunately, recent advancements in foundation models present a new opportunity to address this highly ill-posed problem. To this end, we introduce ArtHOI, an optimization-based framework that integrates and refines priors from multiple foundation models. Our key contribution is a suite of novel methodologies designed to resolve the inherent inaccuracies and physical unreality of these priors. In particular, we introduce an Adaptive Sampling Refinement (ASR) method to optimize object's metric scale and pose for grounding its normalized mesh in world space. Furthermore, we propose a Multimodal Large Language Model (MLLM) guided hand-object alignment method, utilizing contact reasoning information as constraints of hand-object mesh composition optimization. To facilitate a comprehensive evaluation, we also contribute two new datasets, ArtHOI-RGBD and ArtHOI-Wild. Extensive experiments validate the robustness and effectiveness of our ArtHOI across diverse objects and interactions. Project: https://arthoi-reconstruction.github.io.