OneHOI: Unificazione della Generazione e Modifica delle Interazioni Uomo-Oggetto

Abstract

La modellazione delle Interazioni Uomo-Oggetto (HOI) cattura come gli esseri umani agiscono sugli oggetti e si relazionano con essi, tipicamente espressa come triplette <persona, azione, oggetto>. Gli approcci esistenti si dividono in due famiglie distinte: la generazione HOI sintetizza scene a partire da triplette strutturate e layout, ma non riesce a integrare condizioni miste come entità HOI e solo oggetti; mentre l'editing HOI modifica le interazioni tramite testo, ma fatica a disaccoppiare la posa dal contatto fisico e a scalare a interazioni multiple. Introduciamo OneHOI, un framework unificato basato su transformer diffusion che consolida la generazione e l'editing HOI in un unico processo di denoising condizionato guidato da rappresentazioni strutturate condivise delle interazioni. Il suo cuore, il Relational Diffusion Transformer (R-DiT), modella le relazioni mediate dai verbi attraverso token HOI consapevoli del ruolo e dell'istanza, un Action Grounding spaziale basato sul layout, uno Structured HOI Attention per imporre la topologia d'interazione e HOI RoPE per districare scene multi-HOI. Addestrato congiuntamente con modality dropout sul nostro dataset HOI-Edit-44K, insieme a dataset HOI e object-centric, OneHOI supporta controlli guidati dal layout, liberi dal layout, con maschere arbitrarie e a condizioni miste, raggiungendo risultati all'avanguardia sia nella generazione che nell'editing HOI. Il codice è disponibile su https://jiuntian.github.io/OneHOI/.

English

Human-Object Interaction (HOI) modelling captures how humans act upon and relate to objects, typically expressed as <person, action, object> triplets. Existing approaches split into two disjoint families: HOI generation synthesises scenes from structured triplets and layout, but fails to integrate mixed conditions like HOI and object-only entities; and HOI editing modifies interactions via text, yet struggles to decouple pose from physical contact and scale to multiple interactions. We introduce OneHOI, a unified diffusion transformer framework that consolidates HOI generation and editing into a single conditional denoising process driven by shared structured interaction representations. At its core, the Relational Diffusion Transformer (R-DiT) models verb-mediated relations through role- and instance-aware HOI tokens, layout-based spatial Action Grounding, a Structured HOI Attention to enforce interaction topology, and HOI RoPE to disentangle multi-HOI scenes. Trained jointly with modality dropout on our HOI-Edit-44K, along with HOI and object-centric datasets, OneHOI supports layout-guided, layout-free, arbitrary-mask, and mixed-condition control, achieving state-of-the-art results across both HOI generation and editing. Code is available at https://jiuntian.github.io/OneHOI/.

OneHOI: Unificazione della Generazione e Modifica delle Interazioni Uomo-Oggetto

OneHOI: Unifying Human-Object Interaction Generation and Editing

Abstract

Support