HOComp: Interaktionsbewusste Mensch-Objekt-Komposition
HOComp: Interaction-Aware Human-Object Composition
July 22, 2025
papers.authors: Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W. H. Lau
cs.AI
papers.abstract
Während bestehende bildgestützte Kompositionsmethoden dabei helfen können, ein Vordergrundobjekt in einen benutzerdefinierten Bereich eines Hintergrundbildes einzufügen und dabei eine natürliche Verschmelzung innerhalb des Bereichs bei unverändertem Rest des Bildes zu erreichen, beobachten wir, dass diese bestehenden Methoden oft Schwierigkeiten haben, nahtlose interaktionsbewusste Kompositionen zu synthetisieren, wenn die Aufgabe Mensch-Objekt-Interaktionen beinhaltet. In diesem Artikel schlagen wir zunächst HOComp vor, einen neuartigen Ansatz zur Komposition eines Vordergrundobjekts in ein menschenzentriertes Hintergrundbild, wobei harmonische Interaktionen zwischen dem Vordergrundobjekt und der Hintergrundperson sowie ihre konsistenten Erscheinungsbilder sichergestellt werden. Unser Ansatz umfasst zwei Schlüsseldesigns: (1) MLLM-gestützte regionsbasierte Posenerkennung (MRPG), die MLLMs nutzt, um die Interaktionsregion sowie den Interaktionstyp (z.B. Halten und Heben) zu identifizieren, um grob- bis feinabgestimmte Einschränkungen für die generierte Pose der Interaktion bereitzustellen, während menschliche Posemarkierungen einbezogen werden, um Aktionsvariationen zu verfolgen und fein abgestimmte Poseneinschränkungen durchzusetzen; und (2) detailkonsistente Erscheinungserhaltung (DCAP), die einen formbewussten Aufmerksamkeitsmodulationsmechanismus, einen multiview-Erscheinungsverlust und einen Hintergrundkonsistenzverlust vereint, um konsistente Formen/Texturen des Vordergrunds und eine treue Reproduktion der Hintergrundperson sicherzustellen. Anschließend schlagen wir den ersten Datensatz namens Interaction-aware Human-Object Composition (IHOC) für diese Aufgabe vor. Experimentelle Ergebnisse auf unserem Datensatz zeigen, dass HOComp effektiv harmonische Mensch-Objekt-Interaktionen mit konsistenten Erscheinungsbildern erzeugt und relevante Methoden qualitativ und quantitativ übertrifft.
English
While existing image-guided composition methods may help insert a foreground
object onto a user-specified region of a background image, achieving natural
blending inside the region with the rest of the image unchanged, we observe
that these existing methods often struggle in synthesizing seamless
interaction-aware compositions when the task involves human-object
interactions. In this paper, we first propose HOComp, a novel approach for
compositing a foreground object onto a human-centric background image, while
ensuring harmonious interactions between the foreground object and the
background person and their consistent appearances. Our approach includes two
key designs: (1) MLLMs-driven Region-based Pose Guidance (MRPG), which utilizes
MLLMs to identify the interaction region as well as the interaction type (e.g.,
holding and lefting) to provide coarse-to-fine constraints to the generated
pose for the interaction while incorporating human pose landmarks to track
action variations and enforcing fine-grained pose constraints; and (2)
Detail-Consistent Appearance Preservation (DCAP), which unifies a shape-aware
attention modulation mechanism, a multi-view appearance loss, and a background
consistency loss to ensure consistent shapes/textures of the foreground and
faithful reproduction of the background human. We then propose the first
dataset, named Interaction-aware Human-Object Composition (IHOC), for the task.
Experimental results on our dataset show that HOComp effectively generates
harmonious human-object interactions with consistent appearances, and
outperforms relevant methods qualitatively and quantitatively.