F-HOI: Verso Interazioni Uomo-Oggetto 3D Semanticamente Allineate a Grana Fine
F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions
July 17, 2024
Autori: Jie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang
cs.AI
Abstract
I dataset e i modelli esistenti per l'interazione uomo-oggetto in 3D (HOI) si limitano ad allineare descrizioni globali con la lunga sequenza HOI, mancando di una comprensione dettagliata degli stati intermedi e delle transizioni tra di essi. In questo articolo, sosteniamo che l'allineamento semantico fine, che utilizza descrizioni a livello di stato, offre un paradigma promettente per apprendere rappresentazioni HOI semanticamente ricche. Per raggiungere questo obiettivo, introduciamo Semantic-HOI, un nuovo dataset che comprende oltre 20K stati HOI accoppiati con descrizioni dettagliate per ciascuno stato HOI e i movimenti del corpo che avvengono tra due stati consecutivi. Sfruttando il dataset proposto, progettiamo tre task HOI a livello di stato per ottenere un allineamento semantico fine all'interno della sequenza HOI. Inoltre, proponiamo un modello unificato chiamato F-HOI, progettato per sfruttare istruzioni multimodali e potenziare il Large Language Model Multimodale per gestire in modo efficiente diversi task HOI. F-HOI offre numerosi vantaggi: (1) Utilizza una formulazione unificata del task che supporta l'uso di input multimodali versatili. (2) Mantiene la coerenza dell'HOI negli spazi 2D, 3D e linguistico. (3) Sfrutta una supervisione testuale fine per l'ottimizzazione diretta, evitando una modellazione complessa degli stati HOI. Esperimenti estensivi rivelano che F-HOI allinea efficacemente gli stati HOI con descrizioni semantiche dettagliate, affrontando con successo task di comprensione, ragionamento, generazione e ricostruzione.
English
Existing 3D human object interaction (HOI) datasets and models simply align
global descriptions with the long HOI sequence, while lacking a detailed
understanding of intermediate states and the transitions between states. In
this paper, we argue that fine-grained semantic alignment, which utilizes
state-level descriptions, offers a promising paradigm for learning semantically
rich HOI representations. To achieve this, we introduce Semantic-HOI, a new
dataset comprising over 20K paired HOI states with fine-grained descriptions
for each HOI state and the body movements that happen between two consecutive
states. Leveraging the proposed dataset, we design three state-level HOI tasks
to accomplish fine-grained semantic alignment within the HOI sequence.
Additionally, we propose a unified model called F-HOI, designed to leverage
multimodal instructions and empower the Multi-modal Large Language Model to
efficiently handle diverse HOI tasks. F-HOI offers multiple advantages: (1) It
employs a unified task formulation that supports the use of versatile
multimodal inputs. (2) It maintains consistency in HOI across 2D, 3D, and
linguistic spaces. (3) It utilizes fine-grained textual supervision for direct
optimization, avoiding intricate modeling of HOI states. Extensive experiments
reveal that F-HOI effectively aligns HOI states with fine-grained semantic
descriptions, adeptly tackling understanding, reasoning, generation, and
reconstruction tasks.