F-HOI: Rumo a Interações Humanos-Objeto 3D Alinhadas Semanticamente de Granularidade Fina
F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions
July 17, 2024
Autores: Jie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang
cs.AI
Resumo
Os conjuntos de dados e modelos existentes de interação de objetos humanos em 3D (HOI) simplesmente alinham descrições globais com a longa sequência de HOI, enquanto carecem de uma compreensão detalhada dos estados intermediários e das transições entre estados. Neste artigo, argumentamos que o alinhamento semântico refinado, que utiliza descrições a nível de estado, oferece um paradigma promissor para aprender representações semanticamente ricas de HOI. Para alcançar isso, introduzimos o Semantic-HOI, um novo conjunto de dados composto por mais de 20 mil estados de HOI emparelhados com descrições refinadas para cada estado de HOI e os movimentos corporais que ocorrem entre dois estados consecutivos. Aproveitando o conjunto de dados proposto, projetamos três tarefas de HOI a nível de estado para realizar o alinhamento semântico refinado dentro da sequência de HOI. Além disso, propomos um modelo unificado chamado F-HOI, projetado para aproveitar instruções multimodais e capacitar o Modelo de Linguagem Multimodal Grande para lidar eficientemente com diversas tarefas de HOI. F-HOI oferece várias vantagens: (1) Emprega uma formulação de tarefa unificada que suporta o uso de entradas multimodais versáteis. (2) Mantém consistência em HOI em espaços 2D, 3D e linguísticos. (3) Utiliza supervisão textual refinada para otimização direta, evitando modelagem intricada de estados de HOI. Experimentos extensivos revelam que F-HOI alinha efetivamente estados de HOI com descrições semânticas refinadas, lidando habilmente com tarefas de compreensão, raciocínio, geração e reconstrução.
English
Existing 3D human object interaction (HOI) datasets and models simply align
global descriptions with the long HOI sequence, while lacking a detailed
understanding of intermediate states and the transitions between states. In
this paper, we argue that fine-grained semantic alignment, which utilizes
state-level descriptions, offers a promising paradigm for learning semantically
rich HOI representations. To achieve this, we introduce Semantic-HOI, a new
dataset comprising over 20K paired HOI states with fine-grained descriptions
for each HOI state and the body movements that happen between two consecutive
states. Leveraging the proposed dataset, we design three state-level HOI tasks
to accomplish fine-grained semantic alignment within the HOI sequence.
Additionally, we propose a unified model called F-HOI, designed to leverage
multimodal instructions and empower the Multi-modal Large Language Model to
efficiently handle diverse HOI tasks. F-HOI offers multiple advantages: (1) It
employs a unified task formulation that supports the use of versatile
multimodal inputs. (2) It maintains consistency in HOI across 2D, 3D, and
linguistic spaces. (3) It utilizes fine-grained textual supervision for direct
optimization, avoiding intricate modeling of HOI states. Extensive experiments
reveal that F-HOI effectively aligns HOI states with fine-grained semantic
descriptions, adeptly tackling understanding, reasoning, generation, and
reconstruction tasks.Summary
AI-Generated Summary