ArtHOI: Domesticación de Modelos Fundacionales para la Reconstrucción Monocular 4D de Interacciones Mano-Objeto con Articulaciones
ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions
March 26, 2026
Autores: Zikai Wang, Zhilu Zhang, Yiqing Wang, Hui Li, Wangmeng Zuo
cs.AI
Resumen
Los métodos existentes de interacciones mano-objeto (HOI) se limitan en gran medida a objetos rígidos, mientras que los métodos de reconstrucción 4D de objetos articulados generalmente requieren el escaneo previo del objeto o incluso vídeos multivista. Reconstruir interacciones 4D entre humanos y objetos articulados a partir de un único vídeo RGB monocular sigue siendo un desafío inexplorado pero significativo. Afortunadamente, los recientes avances en modelos fundacionales presentan una nueva oportunidad para abordar este problema altamente mal planteado. Con este fin, presentamos ArtHOI, un marco de optimización que integra y refina conocimientos previos de múltiples modelos fundacionales. Nuestra contribución clave es un conjunto de metodologías novedosas diseñadas para resolver las inexactitudes inherentes y la falta de realismo físico de estos conocimientos previos. En particular, introducimos un método de Refinamiento por Muestreo Adaptativo (ASR) para optimizar la escala métrica y la pose del objeto con el fin de anclar su malla normalizada en el espacio mundial. Además, proponemos un método de alineación mano-objeto guiado por Modelos de Lenguaje Multimodal de Gran Escala (MLLM), utilizando información de razonamiento de contacto como restricción para la optimización de la composición de mallas mano-objeto. Para facilitar una evaluación exhaustiva, también contribuimos con dos nuevos conjuntos de datos, ArtHOI-RGBD y ArtHOI-Wild. Experimentos exhaustivos validan la robustez y efectividad de nuestro ArtHOI en diversos objetos e interacciones. Proyecto: https://arthoi-reconstruction.github.io.
English
Existing hand-object interactions (HOI) methods are largely limited to rigid objects, while 4D reconstruction methods of articulated objects generally require pre-scanning the object or even multi-view videos. It remains an unexplored but significant challenge to reconstruct 4D human-articulated-object interactions from a single monocular RGB video. Fortunately, recent advancements in foundation models present a new opportunity to address this highly ill-posed problem. To this end, we introduce ArtHOI, an optimization-based framework that integrates and refines priors from multiple foundation models. Our key contribution is a suite of novel methodologies designed to resolve the inherent inaccuracies and physical unreality of these priors. In particular, we introduce an Adaptive Sampling Refinement (ASR) method to optimize object's metric scale and pose for grounding its normalized mesh in world space. Furthermore, we propose a Multimodal Large Language Model (MLLM) guided hand-object alignment method, utilizing contact reasoning information as constraints of hand-object mesh composition optimization. To facilitate a comprehensive evaluation, we also contribute two new datasets, ArtHOI-RGBD and ArtHOI-Wild. Extensive experiments validate the robustness and effectiveness of our ArtHOI across diverse objects and interactions. Project: https://arthoi-reconstruction.github.io.