HOComp : Composition Objet-Humain Consciente des Interactions
HOComp: Interaction-Aware Human-Object Composition
July 22, 2025
papers.authors: Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W. H. Lau
cs.AI
papers.abstract
Bien que les méthodes existantes de composition guidée par l'image puissent aider à insérer un objet au premier plan dans une région spécifiée par l'utilisateur d'une image de fond, en réalisant un mélange naturel à l'intérieur de la région tout en laissant le reste de l'image inchangé, nous observons que ces méthodes existantes peinent souvent à synthétiser des compositions fluides et conscientes des interactions lorsque la tâche implique des interactions humain-objet. Dans cet article, nous proposons d'abord HOComp, une nouvelle approche pour composer un objet au premier plan sur une image de fond centrée sur l'humain, tout en assurant des interactions harmonieuses entre l'objet au premier plan et la personne en arrière-plan, ainsi que des apparences cohérentes. Notre approche comprend deux conceptions clés : (1) le Guidage de Pose Basé sur la Région Piloté par les MLLMs (MRPG), qui utilise les MLLMs pour identifier la région d'interaction ainsi que le type d'interaction (par exemple, tenir et soulever) afin de fournir des contraintes allant du grossier au fin pour la pose générée pour l'interaction, tout en incorporant des repères de pose humaine pour suivre les variations d'action et imposer des contraintes de pose fines ; et (2) la Préservation d'Apparence Cohérente des Détails (DCAP), qui unifie un mécanisme de modulation d'attention conscient de la forme, une perte d'apparence multi-vue et une perte de cohérence de l'arrière-plan pour assurer des formes/textures cohérentes de l'objet au premier plan et une reproduction fidèle de la personne en arrière-plan. Nous proposons ensuite le premier ensemble de données, nommé Composition Humain-Objet Consciente des Interactions (IHOC), pour cette tâche. Les résultats expérimentaux sur notre ensemble de données montrent que HOComp génère efficacement des interactions humain-objet harmonieuses avec des apparences cohérentes, et surpasse qualitativement et quantitativement les méthodes pertinentes.
English
While existing image-guided composition methods may help insert a foreground
object onto a user-specified region of a background image, achieving natural
blending inside the region with the rest of the image unchanged, we observe
that these existing methods often struggle in synthesizing seamless
interaction-aware compositions when the task involves human-object
interactions. In this paper, we first propose HOComp, a novel approach for
compositing a foreground object onto a human-centric background image, while
ensuring harmonious interactions between the foreground object and the
background person and their consistent appearances. Our approach includes two
key designs: (1) MLLMs-driven Region-based Pose Guidance (MRPG), which utilizes
MLLMs to identify the interaction region as well as the interaction type (e.g.,
holding and lefting) to provide coarse-to-fine constraints to the generated
pose for the interaction while incorporating human pose landmarks to track
action variations and enforcing fine-grained pose constraints; and (2)
Detail-Consistent Appearance Preservation (DCAP), which unifies a shape-aware
attention modulation mechanism, a multi-view appearance loss, and a background
consistency loss to ensure consistent shapes/textures of the foreground and
faithful reproduction of the background human. We then propose the first
dataset, named Interaction-aware Human-Object Composition (IHOC), for the task.
Experimental results on our dataset show that HOComp effectively generates
harmonious human-object interactions with consistent appearances, and
outperforms relevant methods qualitatively and quantitatively.