F-HOI: Hacia Interacciones Humanos-Objeto 3D Alinéadas Semánticamente Detalladas

Resumen

Los conjuntos de datos y modelos existentes de interacción de objetos humanos en 3D (HOI) simplemente alinean descripciones globales con la larga secuencia de HOI, careciendo de una comprensión detallada de los estados intermedios y las transiciones entre estados. En este documento, argumentamos que el alineamiento semántico detallado, que utiliza descripciones a nivel de estado, ofrece un paradigma prometedor para aprender representaciones semánticamente ricas de HOI. Para lograr esto, presentamos Semantic-HOI, un nuevo conjunto de datos que consta de más de 20K estados de HOI emparejados con descripciones detalladas para cada estado de HOI y los movimientos corporales que ocurren entre dos estados consecutivos. Aprovechando el conjunto de datos propuesto, diseñamos tres tareas de HOI a nivel de estado para lograr un alineamiento semántico detallado dentro de la secuencia de HOI. Además, proponemos un modelo unificado llamado F-HOI, diseñado para aprovechar instrucciones multimodales y potenciar el Modelo de Lenguaje Multimodal Grande para manejar eficientemente diversas tareas de HOI. F-HOI ofrece múltiples ventajas: (1) Emplea una formulación de tarea unificada que soporta el uso de entradas multimodales versátiles. (2) Mantiene consistencia en HOI en espacios 2D, 3D y lingüísticos. (3) Utiliza supervisión textual detallada para optimización directa, evitando la modelización intrincada de estados de HOI. Experimentos extensos revelan que F-HOI alinea efectivamente estados de HOI con descripciones semánticas detalladas, abordando hábilmente tareas de comprensión, razonamiento, generación y reconstrucción.

English

Existing 3D human object interaction (HOI) datasets and models simply align global descriptions with the long HOI sequence, while lacking a detailed understanding of intermediate states and the transitions between states. In this paper, we argue that fine-grained semantic alignment, which utilizes state-level descriptions, offers a promising paradigm for learning semantically rich HOI representations. To achieve this, we introduce Semantic-HOI, a new dataset comprising over 20K paired HOI states with fine-grained descriptions for each HOI state and the body movements that happen between two consecutive states. Leveraging the proposed dataset, we design three state-level HOI tasks to accomplish fine-grained semantic alignment within the HOI sequence. Additionally, we propose a unified model called F-HOI, designed to leverage multimodal instructions and empower the Multi-modal Large Language Model to efficiently handle diverse HOI tasks. F-HOI offers multiple advantages: (1) It employs a unified task formulation that supports the use of versatile multimodal inputs. (2) It maintains consistency in HOI across 2D, 3D, and linguistic spaces. (3) It utilizes fine-grained textual supervision for direct optimization, avoiding intricate modeling of HOI states. Extensive experiments reveal that F-HOI effectively aligns HOI states with fine-grained semantic descriptions, adeptly tackling understanding, reasoning, generation, and reconstruction tasks.

F-HOI: Hacia Interacciones Humanos-Objeto 3D Alinéadas Semánticamente Detalladas

F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

Resumen

Support