ArtHOI: Domando Modelos de Base para Reconstrução Monocular 4D de Interações Mão-Objeto Articulado
ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions
March 26, 2026
Autores: Zikai Wang, Zhilu Zhang, Yiqing Wang, Hui Li, Wangmeng Zuo
cs.AI
Resumo
Os métodos existentes de interação mão-objeto (HOI) estão amplamente limitados a objetos rígidos, enquanto os métodos de reconstrução 4D de objetos articulados geralmente exigem a digitalização prévia do objeto ou mesmo vídeos multivista. Permanece um desafio inexplorado, mas significativo, reconstruir interações 4D entre humanos e objetos articulados a partir de um único vídeo RGB monocular. Felizmente, os avanços recentes em modelos de base apresentam uma nova oportunidade para abordar este problema altamente mal-posto. Para isso, introduzimos o ArtHOI, uma estrutura baseada em otimização que integra e refina prioridades de múltiplos modelos de base. Nossa principal contribuição é um conjunto de metodologias inovadoras projetadas para resolver as imprecisões inerentes e a irrealidade física dessas prioridades. Em particular, introduzimos um método de Refinamento por Amostragem Adaptativa (ASR) para otimizar a escala métrica e a pose do objeto para fundamentar sua malha normalizada no espaço mundial. Além disso, propomos um método de alinhamento mão-objeto guiado por Modelo de Linguagem Grande Multimodal (MLLM), utilizando informações de raciocínio de contato como restrições da otimização de composição de malhas mão-objeto. Para facilitar uma avaliação abrangente, também contribuímos com dois novos conjuntos de dados, ArtHOI-RGBD e ArtHOI-Wild. Experimentos extensos validam a robustez e eficácia do nosso ArtHOI em diversos objetos e interações. Projeto: https://arthoi-reconstruction.github.io.
English
Existing hand-object interactions (HOI) methods are largely limited to rigid objects, while 4D reconstruction methods of articulated objects generally require pre-scanning the object or even multi-view videos. It remains an unexplored but significant challenge to reconstruct 4D human-articulated-object interactions from a single monocular RGB video. Fortunately, recent advancements in foundation models present a new opportunity to address this highly ill-posed problem. To this end, we introduce ArtHOI, an optimization-based framework that integrates and refines priors from multiple foundation models. Our key contribution is a suite of novel methodologies designed to resolve the inherent inaccuracies and physical unreality of these priors. In particular, we introduce an Adaptive Sampling Refinement (ASR) method to optimize object's metric scale and pose for grounding its normalized mesh in world space. Furthermore, we propose a Multimodal Large Language Model (MLLM) guided hand-object alignment method, utilizing contact reasoning information as constraints of hand-object mesh composition optimization. To facilitate a comprehensive evaluation, we also contribute two new datasets, ArtHOI-RGBD and ArtHOI-Wild. Extensive experiments validate the robustness and effectiveness of our ArtHOI across diverse objects and interactions. Project: https://arthoi-reconstruction.github.io.