OneHOI: Vereinheitlichung der Generierung und Bearbeitung von Mensch-Objekt-Interaktionen

Zusammenfassung

Die Modellierung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) erfasst, wie Menschen auf Objekte einwirken und in Beziehung zu diesen treten, typischerweise ausgedrückt durch <Person, Aktion, Objekt>-Triplets. Bestehende Ansätze teilen sich in zwei getrennte Familien: Die HOI-Generierung synthetisiert Szenen aus strukturierten Triplets und Layouts, scheitert jedoch an der Integration gemischter Bedingungen wie HOI- und nur-objektbezogener Entitäten. Die HOI-Bearbeitung modifiziert Interaktionen via Text, hat aber Schwierigkeiten, Pose von physischem Kontakt zu entkoppeln und auf mehrere Interaktionen zu skalieren. Wir stellen OneHOI vor, ein vereinheitlichtes Diffusions-Transformer-Framework, das HOI-Generierung und -Bearbeitung in einem einzigen konditionellen Denoisisierungsprozess konsolidiert, der von gemeinsamen strukturierten Interaktionsrepräsentationen gesteuert wird. Kernstück ist der Relationelle Diffusions-Transformer (R-DiT), der verbvermittelte Relationen durch rollen- und instanzsensitive HOI-Tokens, layoutbasierte räumliche Aktionsverankerung (Action Grounding), eine strukturierte HOI-Aufmerksamkeit (Structured HOI Attention) zur Durchsetzung der Interaktionstopologie und HOI-RoPE zur Entflechtung von Multi-HOI-Szenen modelliert. Gemeinsam trainiert mit Modalitäts-Dropout auf unserem HOI-Edit-44K-Datensatz sowie HOI- und objektzentrierten Datensätzen, unterstützt OneHOI layoutgesteuerte, layoutfreie, beliebige Maskierungs- und gemischt-konditionelle Steuerung und erzielt state-of-the-art Ergebnisse sowohl in der HOI-Generierung als auch -Bearbeitung. Code ist verfügbar unter https://jiuntian.github.io/OneHOI/.

English

Human-Object Interaction (HOI) modelling captures how humans act upon and relate to objects, typically expressed as <person, action, object> triplets. Existing approaches split into two disjoint families: HOI generation synthesises scenes from structured triplets and layout, but fails to integrate mixed conditions like HOI and object-only entities; and HOI editing modifies interactions via text, yet struggles to decouple pose from physical contact and scale to multiple interactions. We introduce OneHOI, a unified diffusion transformer framework that consolidates HOI generation and editing into a single conditional denoising process driven by shared structured interaction representations. At its core, the Relational Diffusion Transformer (R-DiT) models verb-mediated relations through role- and instance-aware HOI tokens, layout-based spatial Action Grounding, a Structured HOI Attention to enforce interaction topology, and HOI RoPE to disentangle multi-HOI scenes. Trained jointly with modality dropout on our HOI-Edit-44K, along with HOI and object-centric datasets, OneHOI supports layout-guided, layout-free, arbitrary-mask, and mixed-condition control, achieving state-of-the-art results across both HOI generation and editing. Code is available at https://jiuntian.github.io/OneHOI/.

OneHOI: Vereinheitlichung der Generierung und Bearbeitung von Mensch-Objekt-Interaktionen

OneHOI: Unifying Human-Object Interaction Generation and Editing

Zusammenfassung

Support