F-HOI: Hacia Interacciones Humanos-Objeto 3D Alinéadas Semánticamente Detalladas
F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions
July 17, 2024
Autores: Jie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang
cs.AI
Resumen
Los conjuntos de datos y modelos existentes de interacción de objetos humanos en 3D (HOI) simplemente alinean descripciones globales con la larga secuencia de HOI, careciendo de una comprensión detallada de los estados intermedios y las transiciones entre estados. En este documento, argumentamos que el alineamiento semántico detallado, que utiliza descripciones a nivel de estado, ofrece un paradigma prometedor para aprender representaciones semánticamente ricas de HOI. Para lograr esto, presentamos Semantic-HOI, un nuevo conjunto de datos que consta de más de 20K estados de HOI emparejados con descripciones detalladas para cada estado de HOI y los movimientos corporales que ocurren entre dos estados consecutivos. Aprovechando el conjunto de datos propuesto, diseñamos tres tareas de HOI a nivel de estado para lograr un alineamiento semántico detallado dentro de la secuencia de HOI. Además, proponemos un modelo unificado llamado F-HOI, diseñado para aprovechar instrucciones multimodales y potenciar el Modelo de Lenguaje Multimodal Grande para manejar eficientemente diversas tareas de HOI. F-HOI ofrece múltiples ventajas: (1) Emplea una formulación de tarea unificada que soporta el uso de entradas multimodales versátiles. (2) Mantiene consistencia en HOI en espacios 2D, 3D y lingüísticos. (3) Utiliza supervisión textual detallada para optimización directa, evitando la modelización intrincada de estados de HOI. Experimentos extensos revelan que F-HOI alinea efectivamente estados de HOI con descripciones semánticas detalladas, abordando hábilmente tareas de comprensión, razonamiento, generación y reconstrucción.
English
Existing 3D human object interaction (HOI) datasets and models simply align
global descriptions with the long HOI sequence, while lacking a detailed
understanding of intermediate states and the transitions between states. In
this paper, we argue that fine-grained semantic alignment, which utilizes
state-level descriptions, offers a promising paradigm for learning semantically
rich HOI representations. To achieve this, we introduce Semantic-HOI, a new
dataset comprising over 20K paired HOI states with fine-grained descriptions
for each HOI state and the body movements that happen between two consecutive
states. Leveraging the proposed dataset, we design three state-level HOI tasks
to accomplish fine-grained semantic alignment within the HOI sequence.
Additionally, we propose a unified model called F-HOI, designed to leverage
multimodal instructions and empower the Multi-modal Large Language Model to
efficiently handle diverse HOI tasks. F-HOI offers multiple advantages: (1) It
employs a unified task formulation that supports the use of versatile
multimodal inputs. (2) It maintains consistency in HOI across 2D, 3D, and
linguistic spaces. (3) It utilizes fine-grained textual supervision for direct
optimization, avoiding intricate modeling of HOI states. Extensive experiments
reveal that F-HOI effectively aligns HOI states with fine-grained semantic
descriptions, adeptly tackling understanding, reasoning, generation, and
reconstruction tasks.Summary
AI-Generated Summary