HOComp: Interactiebewuste Mens-Object Compositie
HOComp: Interaction-Aware Human-Object Composition
July 22, 2025
Auteurs: Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W. H. Lau
cs.AI
Samenvatting
Hoewel bestaande methoden voor beeldgeleide compositie kunnen helpen om een voorgrondobject in te voegen in een door de gebruiker gespecificeerd gebied van een achtergrondafbeelding, waarbij een natuurlijke overvloeiing binnen het gebied wordt bereikt terwijl de rest van de afbeelding ongewijzigd blijft, merken we op dat deze bestaande methoden vaak moeite hebben met het synthetiseren van naadloze interactiebewuste composities wanneer de taak mens-objectinteracties omvat. In dit artikel stellen we eerst HOComp voor, een nieuwe aanpak voor het samenstellen van een voorgrondobject in een mensgerichte achtergrondafbeelding, waarbij harmonieuze interacties tussen het voorgrondobject en de achtergrondpersoon en hun consistente uiterlijk worden gewaarborgd. Onze aanpak omvat twee belangrijke ontwerpen: (1) MLLMs-gestuurde regio-gebaseerde posebegeleiding (MRPG), die MLLMs gebruikt om de interactieregio en het interactietype (bijv. vasthouden en optillen) te identificeren om grove tot fijne beperkingen te bieden aan de gegenereerde pose voor de interactie, terwijl menselijke pose-landmarken worden geïntegreerd om actievariaties te volgen en fijnmazige posebeperkingen af te dwingen; en (2) Detail-Consistente Uiterlijkbehoud (DCAP), dat een vormbewust aandachtmodulatiemechanisme, een multi-view uiterlijkverlies en een achtergrondconsistentieverlies verenigt om consistente vormen/texturen van de voorgrond en een getrouwe weergave van de achtergrondpersoon te waarborgen. Vervolgens stellen we de eerste dataset voor, genaamd Interaction-aware Human-Object Composition (IHOC), voor deze taak. Experimentele resultaten op onze dataset tonen aan dat HOComp effectief harmonieuze mens-objectinteracties genereert met consistente uiterlijken, en kwalitatief en kwantitatief beter presteert dan relevante methoden.
English
While existing image-guided composition methods may help insert a foreground
object onto a user-specified region of a background image, achieving natural
blending inside the region with the rest of the image unchanged, we observe
that these existing methods often struggle in synthesizing seamless
interaction-aware compositions when the task involves human-object
interactions. In this paper, we first propose HOComp, a novel approach for
compositing a foreground object onto a human-centric background image, while
ensuring harmonious interactions between the foreground object and the
background person and their consistent appearances. Our approach includes two
key designs: (1) MLLMs-driven Region-based Pose Guidance (MRPG), which utilizes
MLLMs to identify the interaction region as well as the interaction type (e.g.,
holding and lefting) to provide coarse-to-fine constraints to the generated
pose for the interaction while incorporating human pose landmarks to track
action variations and enforcing fine-grained pose constraints; and (2)
Detail-Consistent Appearance Preservation (DCAP), which unifies a shape-aware
attention modulation mechanism, a multi-view appearance loss, and a background
consistency loss to ensure consistent shapes/textures of the foreground and
faithful reproduction of the background human. We then propose the first
dataset, named Interaction-aware Human-Object Composition (IHOC), for the task.
Experimental results on our dataset show that HOComp effectively generates
harmonious human-object interactions with consistent appearances, and
outperforms relevant methods qualitatively and quantitatively.