F-HOI:細粒度の意味的整合性を持つ3D人間-物体インタラクションに向けて
F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions
July 17, 2024
著者: Jie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang
cs.AI
要旨
既存の3D人間-物体インタラクション(HOI)データセットとモデルは、単にグローバルな記述を長いHOIシーケンスに合わせるだけで、中間状態や状態間の遷移に対する詳細な理解が欠けています。本論文では、状態レベルの記述を活用した細粒度の意味的アラインメントが、意味的に豊かなHOI表現を学習するための有望なパラダイムを提供すると主張します。これを実現するため、Semantic-HOIという新しいデータセットを導入します。このデータセットは、各HOI状態と2つの連続する状態間で発生する身体動作に対する細粒度の記述を含む、20K以上のペアHOI状態で構成されています。提案されたデータセットを活用し、HOIシーケンス内で細粒度の意味的アラインメントを達成するための3つの状態レベルHOIタスクを設計します。さらに、マルチモーダル命令を活用し、マルチモーダル大規模言語モデルが多様なHOIタスクを効率的に処理できるようにするF-HOIという統一モデルを提案します。F-HOIには複数の利点があります:(1)多様なマルチモーダル入力の使用をサポートする統一タスク定式化を採用しています。(2)2D、3D、および言語空間全体でHOIの一貫性を維持します。(3)HOI状態の複雑なモデリングを避け、細粒度のテキスト監視を直接最適化に利用します。大規模な実験により、F-HOIがHOI状態を細粒度の意味的記述と効果的にアラインメントし、理解、推論、生成、再構成タスクを巧みに処理することが明らかになりました。
English
Existing 3D human object interaction (HOI) datasets and models simply align
global descriptions with the long HOI sequence, while lacking a detailed
understanding of intermediate states and the transitions between states. In
this paper, we argue that fine-grained semantic alignment, which utilizes
state-level descriptions, offers a promising paradigm for learning semantically
rich HOI representations. To achieve this, we introduce Semantic-HOI, a new
dataset comprising over 20K paired HOI states with fine-grained descriptions
for each HOI state and the body movements that happen between two consecutive
states. Leveraging the proposed dataset, we design three state-level HOI tasks
to accomplish fine-grained semantic alignment within the HOI sequence.
Additionally, we propose a unified model called F-HOI, designed to leverage
multimodal instructions and empower the Multi-modal Large Language Model to
efficiently handle diverse HOI tasks. F-HOI offers multiple advantages: (1) It
employs a unified task formulation that supports the use of versatile
multimodal inputs. (2) It maintains consistency in HOI across 2D, 3D, and
linguistic spaces. (3) It utilizes fine-grained textual supervision for direct
optimization, avoiding intricate modeling of HOI states. Extensive experiments
reveal that F-HOI effectively aligns HOI states with fine-grained semantic
descriptions, adeptly tackling understanding, reasoning, generation, and
reconstruction tasks.Summary
AI-Generated Summary