OneHOI: Унификация генерации и редактирования взаимодействий человек-объект

Аннотация

Моделирование взаимодействий «человек–объект» (Human-Object Interaction, HOI) описывает, как люди воздействуют на объекты и соотносятся с ними, что обычно выражается в виде триплетов <человек, действие, объект>. Существующие подходы делятся на два независимых семейства: генерация HOI синтезирует сцены из структурированных триплетов и компоновки, но не способна интегрировать смешанные условия, такие как HOI и объектно-ориентированные сущности; а редактирование HOI изменяет взаимодействия через текст, но испытывает трудности с разделением позы и физического контакта и масштабированием на множественные взаимодействия. Мы представляем OneHOI — унифицированную диффузионную трансформерную архитектуру, которая объединяет генерацию и редактирование HOI в единый процесс условного шумоподавления, управляемый общими структурированными представлениями взаимодействий. В её основе лежит Реляционный Диффузионный Трансформер (R-DiT), который моделирует опосредованные глаголами отношения через HOI-токены с учётом ролей и экземпляров, пространственное Привязывание Действий на основе компоновки, Структурированное HOI-Внимание для обеспечения топологии взаимодействий и HOI RoPE для разделения сцен с множественными HOI. Обученная совместно с dropout модальностей на нашем наборе данных HOI-Edit-44K, а также на HOI- и объектно-ориентированных наборах, OneHOI поддерживает управление по компоновке, без компоновки, с произвольной маской и со смешанными условиями, достигая передовых результатов как в генерации, так и в редактировании HOI. Код доступен по адресу https://jiuntian.github.io/OneHOI/.

English

Human-Object Interaction (HOI) modelling captures how humans act upon and relate to objects, typically expressed as <person, action, object> triplets. Existing approaches split into two disjoint families: HOI generation synthesises scenes from structured triplets and layout, but fails to integrate mixed conditions like HOI and object-only entities; and HOI editing modifies interactions via text, yet struggles to decouple pose from physical contact and scale to multiple interactions. We introduce OneHOI, a unified diffusion transformer framework that consolidates HOI generation and editing into a single conditional denoising process driven by shared structured interaction representations. At its core, the Relational Diffusion Transformer (R-DiT) models verb-mediated relations through role- and instance-aware HOI tokens, layout-based spatial Action Grounding, a Structured HOI Attention to enforce interaction topology, and HOI RoPE to disentangle multi-HOI scenes. Trained jointly with modality dropout on our HOI-Edit-44K, along with HOI and object-centric datasets, OneHOI supports layout-guided, layout-free, arbitrary-mask, and mixed-condition control, achieving state-of-the-art results across both HOI generation and editing. Code is available at https://jiuntian.github.io/OneHOI/.

OneHOI: Унификация генерации и редактирования взаимодействий человек-объект

OneHOI: Unifying Human-Object Interaction Generation and Editing

Аннотация

Support