HOComp: インタラクションを考慮した人間-物体合成
HOComp: Interaction-Aware Human-Object Composition
July 22, 2025
著者: Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W. H. Lau
cs.AI
要旨
既存の画像誘導型合成手法は、前景オブジェクトをユーザー指定の背景画像領域に挿入し、その領域内で自然なブレンディングを実現しつつ、画像の他の部分を変更せずに保つことに役立つ場合があります。しかし、これらの既存手法は、人間とオブジェクトの相互作用を含むタスクにおいて、シームレスなインタラクションを考慮した合成を行う際にしばしば困難に直面することが観察されます。本論文ではまず、前景オブジェクトを人間中心の背景画像に合成しつつ、前景オブジェクトと背景人物との調和の取れた相互作用と、それらの一貫した外観を確保するための新しいアプローチであるHOCompを提案します。我々のアプローチは、以下の2つの主要な設計を含みます:(1) MLLMsを活用した領域ベースのポーズガイダンス(MRPG)。これは、MLLMsを用いて相互作用領域と相互作用タイプ(例:保持、持ち上げ)を特定し、生成されるポーズに対して粗から細までの制約を提供するとともに、人間のポーズランドマークを組み込んでアクションのバリエーションを追跡し、細かなポーズ制約を強化します。(2) 詳細一貫性のある外観保存(DCAP)。これは、形状を考慮したアテンションモジュレーション機構、マルチビュー外観損失、および背景一貫性損失を統合し、前景の形状/テクスチャの一貫性と背景人物の忠実な再現を確保します。さらに、このタスク向けに初めてのデータセットである「インタラクションを考慮した人間-オブジェクト合成(IHOC)」を提案します。我々のデータセットを用いた実験結果は、HOCompが調和の取れた人間-オブジェクト相互作用を一貫した外観で効果的に生成し、関連手法を質的・量的に上回ることを示しています。
English
While existing image-guided composition methods may help insert a foreground
object onto a user-specified region of a background image, achieving natural
blending inside the region with the rest of the image unchanged, we observe
that these existing methods often struggle in synthesizing seamless
interaction-aware compositions when the task involves human-object
interactions. In this paper, we first propose HOComp, a novel approach for
compositing a foreground object onto a human-centric background image, while
ensuring harmonious interactions between the foreground object and the
background person and their consistent appearances. Our approach includes two
key designs: (1) MLLMs-driven Region-based Pose Guidance (MRPG), which utilizes
MLLMs to identify the interaction region as well as the interaction type (e.g.,
holding and lefting) to provide coarse-to-fine constraints to the generated
pose for the interaction while incorporating human pose landmarks to track
action variations and enforcing fine-grained pose constraints; and (2)
Detail-Consistent Appearance Preservation (DCAP), which unifies a shape-aware
attention modulation mechanism, a multi-view appearance loss, and a background
consistency loss to ensure consistent shapes/textures of the foreground and
faithful reproduction of the background human. We then propose the first
dataset, named Interaction-aware Human-Object Composition (IHOC), for the task.
Experimental results on our dataset show that HOComp effectively generates
harmonious human-object interactions with consistent appearances, and
outperforms relevant methods qualitatively and quantitatively.