Перемещение объекта в пределах изображения
Repositioning the Subject within Image
January 30, 2024
Авторы: Yikai Wang, Chenjie Cao, Qiaole Dong, Yifan Li, Yanwei Fu
cs.AI
Аннотация
Современные методы манипуляции с изображениями в основном сосредоточены на статической обработке, такой как замена определенных областей изображения или изменение его общего стиля. В данной статье мы представляем инновационную задачу динамической манипуляции — перестановку объекта. Эта задача предполагает перемещение указанного пользователем объекта в желаемую позицию с сохранением реалистичности изображения. Наше исследование показывает, что основные подзадачи перестановки объекта, включая заполнение пустоты, оставшейся после перемещения объекта, восстановление скрытых частей объекта и гармоничное встраивание объекта в окружающую область, могут быть эффективно переформулированы как единая задача инпантинга, управляемая подсказками. В результате мы можем использовать одну диффузионную генеративную модель для решения этих подзадач с помощью различных подсказок, изученных с помощью предложенной нами техники инверсии задач. Дополнительно мы интегрируем методы предварительной и последующей обработки для дальнейшего повышения качества перестановки объекта. Эти элементы вместе формируют наш фреймворк SEgment-gEnerate-and-bLEnd (SEELE). Для оценки эффективности SEELE в задаче перестановки объекта мы собрали набор данных реальных изображений для перестановки объектов, названный ReS. Наши результаты на ReS демонстрируют качество генерации изображений с переставленными объектами.
English
Current image manipulation primarily centers on static manipulation, such as
replacing specific regions within an image or altering its overall style. In
this paper, we introduce an innovative dynamic manipulation task, subject
repositioning. This task involves relocating a user-specified subject to a
desired position while preserving the image's fidelity. Our research reveals
that the fundamental sub-tasks of subject repositioning, which include filling
the void left by the repositioned subject, reconstructing obscured portions of
the subject and blending the subject to be consistent with surrounding areas,
can be effectively reformulated as a unified, prompt-guided inpainting task.
Consequently, we can employ a single diffusion generative model to address
these sub-tasks using various task prompts learned through our proposed task
inversion technique. Additionally, we integrate pre-processing and
post-processing techniques to further enhance the quality of subject
repositioning. These elements together form our SEgment-gEnerate-and-bLEnd
(SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we
assemble a real-world subject repositioning dataset called ReS. Our results on
ReS demonstrate the quality of repositioned image generation.