F-HOI: 세밀한 의미 정렬을 위한 3D 인간-객체 상호작용
F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions
July 17, 2024
저자: Jie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang
cs.AI
초록
기존의 3D 인간-객체 상호작용(HOI) 데이터셋과 모델들은 전역적 설명을 긴 HOI 시퀀스와 단순히 정렬할 뿐, 중간 상태와 상태 간 전환에 대한 세부적인 이해가 부족합니다. 본 논문에서는 상태 수준의 설명을 활용한 세밀한 의미론적 정렬이 의미적으로 풍부한 HOI 표현을 학습하기 위한 유망한 패러다임을 제공한다고 주장합니다. 이를 위해, 우리는 각 HOI 상태와 두 연속 상태 간에 발생하는 신체 움직임에 대한 세밀한 설명을 포함한 20,000개 이상의 짝을 이루는 HOI 상태로 구성된 새로운 데이터셋인 Semantic-HOI를 소개합니다. 제안된 데이터셋을 활용하여, 우리는 HOI 시퀀스 내에서 세밀한 의미론적 정렬을 달성하기 위한 세 가지 상태 수준 HOI 작업을 설계합니다. 또한, 우리는 다중 모달 지침을 활용하고 다중 모달 대형 언어 모델이 다양한 HOI 작업을 효율적으로 처리할 수 있도록 설계된 통합 모델인 F-HOI를 제안합니다. F-HOI는 여러 가지 장점을 제공합니다: (1) 다양한 다중 모달 입력의 사용을 지원하는 통합 작업 공식을 채택합니다. (2) 2D, 3D 및 언어 공간에서 HOI의 일관성을 유지합니다. (3) HOI 상태의 복잡한 모델링을 피하고 직접 최적화를 위한 세밀한 텍스트 감독을 활용합니다. 광범위한 실험을 통해 F-HOI가 HOI 상태를 세밀한 의미론적 설명과 효과적으로 정렬하며, 이해, 추론, 생성 및 재구성 작업을 능숙하게 처리함을 확인했습니다.
English
Existing 3D human object interaction (HOI) datasets and models simply align
global descriptions with the long HOI sequence, while lacking a detailed
understanding of intermediate states and the transitions between states. In
this paper, we argue that fine-grained semantic alignment, which utilizes
state-level descriptions, offers a promising paradigm for learning semantically
rich HOI representations. To achieve this, we introduce Semantic-HOI, a new
dataset comprising over 20K paired HOI states with fine-grained descriptions
for each HOI state and the body movements that happen between two consecutive
states. Leveraging the proposed dataset, we design three state-level HOI tasks
to accomplish fine-grained semantic alignment within the HOI sequence.
Additionally, we propose a unified model called F-HOI, designed to leverage
multimodal instructions and empower the Multi-modal Large Language Model to
efficiently handle diverse HOI tasks. F-HOI offers multiple advantages: (1) It
employs a unified task formulation that supports the use of versatile
multimodal inputs. (2) It maintains consistency in HOI across 2D, 3D, and
linguistic spaces. (3) It utilizes fine-grained textual supervision for direct
optimization, avoiding intricate modeling of HOI states. Extensive experiments
reveal that F-HOI effectively aligns HOI states with fine-grained semantic
descriptions, adeptly tackling understanding, reasoning, generation, and
reconstruction tasks.Summary
AI-Generated Summary