HOComp: Composizione Uomo-Oggetto con Consapevolezza dell'Interazione
HOComp: Interaction-Aware Human-Object Composition
July 22, 2025
Autori: Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W. H. Lau
cs.AI
Abstract
Mentre i metodi esistenti di composizione guidata da immagini possono aiutare a inserire un oggetto in primo piano in una regione specificata dall'utente di un'immagine di sfondo, ottenendo una fusione naturale all'interno della regione senza alterare il resto dell'immagine, osserviamo che questi metodi spesso incontrano difficoltà nel sintetizzare composizioni senza soluzione di continuità e consapevoli delle interazioni quando il compito coinvolge interazioni uomo-oggetto. In questo articolo, proponiamo innanzitutto HOComp, un approccio innovativo per comporre un oggetto in primo piano su un'immagine di sfondo centrata sull'uomo, garantendo interazioni armoniose tra l'oggetto in primo piano e la persona nello sfondo, nonché la coerenza delle loro apparenze. Il nostro approccio include due design chiave: (1) MLLMs-driven Region-based Pose Guidance (MRPG), che utilizza MLLMs per identificare la regione di interazione e il tipo di interazione (ad esempio, tenere e sollevare) per fornire vincoli da grossolani a fini alla posa generata per l'interazione, incorporando punti di riferimento della posa umana per tracciare le variazioni dell'azione e applicare vincoli di posa dettagliati; e (2) Detail-Consistent Appearance Preservation (DCAP), che unisce un meccanismo di modulazione dell'attenzione consapevole della forma, una perdita di aspetto multi-vista e una perdita di coerenza dello sfondo per garantire forme/tessiture coerenti dell'oggetto in primo piano e una riproduzione fedele della persona nello sfondo. Proponiamo quindi il primo dataset, denominato Interaction-aware Human-Object Composition (IHOC), per questo compito. I risultati sperimentali sul nostro dataset dimostrano che HOComp genera efficacemente interazioni armoniose uomo-oggetto con apparenze coerenti, superando qualitativamente e quantitativamente i metodi rilevanti.
English
While existing image-guided composition methods may help insert a foreground
object onto a user-specified region of a background image, achieving natural
blending inside the region with the rest of the image unchanged, we observe
that these existing methods often struggle in synthesizing seamless
interaction-aware compositions when the task involves human-object
interactions. In this paper, we first propose HOComp, a novel approach for
compositing a foreground object onto a human-centric background image, while
ensuring harmonious interactions between the foreground object and the
background person and their consistent appearances. Our approach includes two
key designs: (1) MLLMs-driven Region-based Pose Guidance (MRPG), which utilizes
MLLMs to identify the interaction region as well as the interaction type (e.g.,
holding and lefting) to provide coarse-to-fine constraints to the generated
pose for the interaction while incorporating human pose landmarks to track
action variations and enforcing fine-grained pose constraints; and (2)
Detail-Consistent Appearance Preservation (DCAP), which unifies a shape-aware
attention modulation mechanism, a multi-view appearance loss, and a background
consistency loss to ensure consistent shapes/textures of the foreground and
faithful reproduction of the background human. We then propose the first
dataset, named Interaction-aware Human-Object Composition (IHOC), for the task.
Experimental results on our dataset show that HOComp effectively generates
harmonious human-object interactions with consistent appearances, and
outperforms relevant methods qualitatively and quantitatively.