ChatPaper.aiChatPaper

ArtHOI: 모노큘러 4D 핸드-관절-객체 상호작용 재구성을 위한 파운데이션 모델 제어

ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

March 26, 2026
저자: Zikai Wang, Zhilu Zhang, Yiqing Wang, Hui Li, Wangmeng Zuo
cs.AI

초록

기존의 손-객체 상호작용(HOI) 방법은 대부분 강체 객체에 국한되는 반면, 관절형 객체의 4D 재구성 방법은 일반적으로 객체의 사전 스캔 또는 다중 뷰 비디오까지 요구합니다. 단일 단안 RGB 비디오로부터 4D 인간-관절형-객체 상호작용을 재구성하는 것은 아직 탐구되지 않았으나 중요한 과제로 남아있습니다. 다행히도 파운데이션 모델의 최근 발전은 이 매우 ill-posed 문제를 해결할 새로운 기회를 제공합니다. 이를 위해 우리는 여러 파운데이션 모델의 사전 지식을 통합 및 정제하는 최적화 기반 프레임워크인 ArtHOI를 소개합니다. 우리의 주요 기여는 이러한 사전 지식의 내재된 부정확성과 물리적 비현실성을 해결하기 위해 설계된 일련의 새로운 방법론입니다. 특히, 객체의 정규화된 메시를 월드 공간에 정착시키기 위해 객체의 미터법 척도와 자세를 최적화하는 적응형 샘플링 정제(ASR) 방법을 도입합니다. 더 나아가, 접촉 추론 정보를 손-객체 메시 구성 최적화의 제약 조건으로 활용하는 멀티모달 대규모 언어 모델(MLLM) 기반 손-객체 정렬 방법을 제안합니다. 포괄적인 평가를 위해 우리는 두 가지 새로운 데이터셋인 ArtHOI-RGBD와 ArtHOI-Wild도 공개합니다. 다양한 객체와 상호작용에 걸친 광범위한 실험을 통해 우리의 ArtHOI의 강건성과 효과성을 입증합니다. 프로젝트: https://arthoi-reconstruction.github.io.
English
Existing hand-object interactions (HOI) methods are largely limited to rigid objects, while 4D reconstruction methods of articulated objects generally require pre-scanning the object or even multi-view videos. It remains an unexplored but significant challenge to reconstruct 4D human-articulated-object interactions from a single monocular RGB video. Fortunately, recent advancements in foundation models present a new opportunity to address this highly ill-posed problem. To this end, we introduce ArtHOI, an optimization-based framework that integrates and refines priors from multiple foundation models. Our key contribution is a suite of novel methodologies designed to resolve the inherent inaccuracies and physical unreality of these priors. In particular, we introduce an Adaptive Sampling Refinement (ASR) method to optimize object's metric scale and pose for grounding its normalized mesh in world space. Furthermore, we propose a Multimodal Large Language Model (MLLM) guided hand-object alignment method, utilizing contact reasoning information as constraints of hand-object mesh composition optimization. To facilitate a comprehensive evaluation, we also contribute two new datasets, ArtHOI-RGBD and ArtHOI-Wild. Extensive experiments validate the robustness and effectiveness of our ArtHOI across diverse objects and interactions. Project: https://arthoi-reconstruction.github.io.
PDF31April 2, 2026