OneHOI: Unificación de la Generación y Edición de Interacciones Humano-Objeto

Resumen

La modelización de Interacción Humano-Objeto (HOI) captura cómo las personas actúan sobre los objetos y se relacionan con ellos, expresándose típicamente como tripletas <persona, acción, objeto>. Los enfoques existentes se dividen en dos familias disjuntas: la generación de HOI sintetiza escenas a partir de tripletas estructuradas y disposiciones espaciales (layouts), pero no logra integrar condiciones mixtas como entidades HOI y solo-objeto; y la edición de HOI modifica interacciones mediante texto, aunque lucha por desacoplar la postura del contacto físico y escalar a múltiples interacciones. Presentamos OneHOI, un marco unificado de transformadores de difusión que consolida la generación y edición de HOI en un único proceso de eliminación de ruido condicional impulsado por representaciones estructuradas de interacción compartidas. En su núcleo, el Transformador de Difusión Relacional (R-DiT) modela las relaciones mediadas por verbos mediante tokens HOI conscientes de roles e instancias, la Fundamentación Espacial de la Acción basada en layout, una Atención HOI Estructurada para hacer cumplir la topología de interacción y HOI RoPE para desentrañar escenas multi-HOI. Entrenado conjuntamente con abandono de modalidad (modality dropout) en nuestro conjunto HOI-Edit-44K, junto con datos centrados en HOI y en objetos, OneHOI admite control guiado por layout, libre de layout, con máscara arbitraria y de condiciones mixtas, logrando resultados de vanguardia tanto en generación como en edición de HOI. El código está disponible en https://jiuntian.github.io/OneHOI/.

English

Human-Object Interaction (HOI) modelling captures how humans act upon and relate to objects, typically expressed as <person, action, object> triplets. Existing approaches split into two disjoint families: HOI generation synthesises scenes from structured triplets and layout, but fails to integrate mixed conditions like HOI and object-only entities; and HOI editing modifies interactions via text, yet struggles to decouple pose from physical contact and scale to multiple interactions. We introduce OneHOI, a unified diffusion transformer framework that consolidates HOI generation and editing into a single conditional denoising process driven by shared structured interaction representations. At its core, the Relational Diffusion Transformer (R-DiT) models verb-mediated relations through role- and instance-aware HOI tokens, layout-based spatial Action Grounding, a Structured HOI Attention to enforce interaction topology, and HOI RoPE to disentangle multi-HOI scenes. Trained jointly with modality dropout on our HOI-Edit-44K, along with HOI and object-centric datasets, OneHOI supports layout-guided, layout-free, arbitrary-mask, and mixed-condition control, achieving state-of-the-art results across both HOI generation and editing. Code is available at https://jiuntian.github.io/OneHOI/.

OneHOI: Unificación de la Generación y Edición de Interacciones Humano-Objeto

OneHOI: Unifying Human-Object Interaction Generation and Editing

Resumen

Support