ChatPaper.aiChatPaper

HOComp: Взаимодействие-ориентированная композиция "человек-объект"

HOComp: Interaction-Aware Human-Object Composition

July 22, 2025
Авторы: Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W. H. Lau
cs.AI

Аннотация

Хотя существующие методы композиции с использованием изображений могут помочь вставить объект переднего плана в указанную пользователем область фонового изображения, обеспечивая естественное смешение внутри этой области при неизменности остальной части изображения, мы наблюдаем, что эти методы часто испытывают трудности в синтезе бесшовных композиций, учитывающих взаимодействия, когда задача включает взаимодействия человека и объекта. В данной статье мы впервые предлагаем HOComp — новый подход для композиции объекта переднего плана на фоновое изображение с человеком, обеспечивая гармоничные взаимодействия между объектом переднего плана и человеком на фоне, а также их согласованные внешние характеристики. Наш подход включает два ключевых элемента: (1) Пошаговое руководство по позе на основе регионов с использованием MLLMs (MRPG), которое использует MLLMs для определения области взаимодействия, а также типа взаимодействия (например, удержание или поднятие), чтобы обеспечить грубые и точные ограничения для генерируемой позы взаимодействия, одновременно учитывая ключевые точки позы человека для отслеживания вариаций действий и наложения детализированных ограничений на позу; и (2) Сохранение внешнего вида с учетом деталей (DCAP), которое объединяет механизм модуляции внимания с учетом формы, потерю внешнего вида с нескольких ракурсов и потерю согласованности фона для обеспечения согласованных форм/текстур объекта переднего плана и точного воспроизведения человека на фоне. Затем мы предлагаем первый набор данных, названный Interaction-aware Human-Object Composition (IHOC), для данной задачи. Экспериментальные результаты на нашем наборе данных показывают, что HOComp эффективно генерирует гармоничные взаимодействия человека и объекта с согласованными внешними характеристиками и превосходит соответствующие методы как качественно, так и количественно.
English
While existing image-guided composition methods may help insert a foreground object onto a user-specified region of a background image, achieving natural blending inside the region with the rest of the image unchanged, we observe that these existing methods often struggle in synthesizing seamless interaction-aware compositions when the task involves human-object interactions. In this paper, we first propose HOComp, a novel approach for compositing a foreground object onto a human-centric background image, while ensuring harmonious interactions between the foreground object and the background person and their consistent appearances. Our approach includes two key designs: (1) MLLMs-driven Region-based Pose Guidance (MRPG), which utilizes MLLMs to identify the interaction region as well as the interaction type (e.g., holding and lefting) to provide coarse-to-fine constraints to the generated pose for the interaction while incorporating human pose landmarks to track action variations and enforcing fine-grained pose constraints; and (2) Detail-Consistent Appearance Preservation (DCAP), which unifies a shape-aware attention modulation mechanism, a multi-view appearance loss, and a background consistency loss to ensure consistent shapes/textures of the foreground and faithful reproduction of the background human. We then propose the first dataset, named Interaction-aware Human-Object Composition (IHOC), for the task. Experimental results on our dataset show that HOComp effectively generates harmonious human-object interactions with consistent appearances, and outperforms relevant methods qualitatively and quantitatively.
PDF113July 23, 2025