OneHOI: Unificação da Geração e Edição de Interações Humano-Objeto

Resumo

A modelação de Interação Humano-Objeto (HOI) capta a forma como os seres humanos atuam sobre e se relacionam com objetos, tipicamente expressa como triplos <pessoa, ação, objeto>. As abordagens existentes dividem-se em duas famílias distintas: a geração de HOI sintetiza cenas a partir de triplos estruturados e layouts, mas falha em integrar condições mistas, como entidades de HOI e apenas objetos; e a edição de HOI modifica interações através de texto, mas luta para desacoplar a pose do contacto físico e para dimensionar para múltiplas interações. Apresentamos o OneHOI, uma estrutura unificada de transformadores de difusão que consolida a geração e edição de HOI num único processo condicional de remoção de ruído, orientado por representações estruturadas partilhadas de interações. No seu núcleo, o Relational Diffusion Transformer (R-DiT) modela relações mediadas por verbos através de tokens de HOI conscientes do papel e da instância, de uma Ancoragem Espacial de Ação baseada em layout, de uma Atenção Estruturada a HOI para impor a topologia de interação, e de HOI RoPE para separar cenas multi-HOI. Treinado em conjunto com *dropout* de modalidade no nosso conjunto HOI-Edit-44K, juntamente com conjuntos de dados centrados em HOI e objetos, o OneHOI suporta controlo guiado por layout, livre de layout, com máscara arbitrária e de condições mistas, alcançando resultados de última geração tanto na geração como na edição de HOI. O código está disponível em https://jiuntian.github.io/OneHOI/.

English

Human-Object Interaction (HOI) modelling captures how humans act upon and relate to objects, typically expressed as <person, action, object> triplets. Existing approaches split into two disjoint families: HOI generation synthesises scenes from structured triplets and layout, but fails to integrate mixed conditions like HOI and object-only entities; and HOI editing modifies interactions via text, yet struggles to decouple pose from physical contact and scale to multiple interactions. We introduce OneHOI, a unified diffusion transformer framework that consolidates HOI generation and editing into a single conditional denoising process driven by shared structured interaction representations. At its core, the Relational Diffusion Transformer (R-DiT) models verb-mediated relations through role- and instance-aware HOI tokens, layout-based spatial Action Grounding, a Structured HOI Attention to enforce interaction topology, and HOI RoPE to disentangle multi-HOI scenes. Trained jointly with modality dropout on our HOI-Edit-44K, along with HOI and object-centric datasets, OneHOI supports layout-guided, layout-free, arbitrary-mask, and mixed-condition control, achieving state-of-the-art results across both HOI generation and editing. Code is available at https://jiuntian.github.io/OneHOI/.

OneHOI: Unificação da Geração e Edição de Interações Humano-Objeto

OneHOI: Unifying Human-Object Interaction Generation and Editing

Resumo

Support