F-HOI: К Fein-grained семантически выровненным 3D взаимодействиям человек-объект.
F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions
July 17, 2024
Авторы: Jie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang
cs.AI
Аннотация
Существующие наборы данных и модели взаимодействия человеческих объектов в трехмерном пространстве (HOI) просто выравнивают глобальные описания с длинной последовательностью HOI, не обладая детальным пониманием промежуточных состояний и переходов между ними. В данной статье мы утверждаем, что выравнивание семантики с тонкой детализацией, которое использует описания на уровне состояний, предлагает многообещающую парадигму для обучения семантически насыщенных представлений HOI. Для достижения этой цели мы представляем Semantic-HOI, новый набор данных, включающий более 20 тыс. сопоставленных состояний HOI с тонкими описаниями для каждого состояния HOI и движениями тела, происходящими между двумя последовательными состояниями. Используя предложенный набор данных, мы разрабатываем три задачи HOI на уровне состояний для достижения тонкого семантического выравнивания в последовательности HOI. Кроме того, мы предлагаем объединенную модель под названием F-HOI, разработанную для использования мультимодальных инструкций и усиления Многомодальной Большой Языковой Модели для эффективной обработки разнообразных задач HOI. F-HOI предлагает несколько преимуществ: (1) Он использует объединенную формулировку задачи, поддерживающую использование разносторонних мультимодальных входов. (2) Он поддерживает согласованность в HOI в пространствах 2D, 3D и лингвистических. (3) Он использует тонкую текстовую надзорную информацию для прямой оптимизации, избегая сложного моделирования состояний HOI. Обширные эксперименты показывают, что F-HOI эффективно выравнивает состояния HOI с тонкими семантическими описаниями, искусно справляясь с задачами понимания, рассуждения, генерации и восстановления.
English
Existing 3D human object interaction (HOI) datasets and models simply align
global descriptions with the long HOI sequence, while lacking a detailed
understanding of intermediate states and the transitions between states. In
this paper, we argue that fine-grained semantic alignment, which utilizes
state-level descriptions, offers a promising paradigm for learning semantically
rich HOI representations. To achieve this, we introduce Semantic-HOI, a new
dataset comprising over 20K paired HOI states with fine-grained descriptions
for each HOI state and the body movements that happen between two consecutive
states. Leveraging the proposed dataset, we design three state-level HOI tasks
to accomplish fine-grained semantic alignment within the HOI sequence.
Additionally, we propose a unified model called F-HOI, designed to leverage
multimodal instructions and empower the Multi-modal Large Language Model to
efficiently handle diverse HOI tasks. F-HOI offers multiple advantages: (1) It
employs a unified task formulation that supports the use of versatile
multimodal inputs. (2) It maintains consistency in HOI across 2D, 3D, and
linguistic spaces. (3) It utilizes fine-grained textual supervision for direct
optimization, avoiding intricate modeling of HOI states. Extensive experiments
reveal that F-HOI effectively aligns HOI states with fine-grained semantic
descriptions, adeptly tackling understanding, reasoning, generation, and
reconstruction tasks.Summary
AI-Generated Summary