ChatPaper.aiChatPaper

Die Neupositionierung des Subjekts innerhalb des Bildes

Repositioning the Subject within Image

January 30, 2024
Autoren: Yikai Wang, Chenjie Cao, Qiaole Dong, Yifan Li, Yanwei Fu
cs.AI

Zusammenfassung

Die aktuelle Bildmanipulation konzentriert sich hauptsächlich auf statische Manipulationen, wie das Ersetzen bestimmter Bereiche innerhalb eines Bildes oder die Veränderung seines Gesamtstils. In diesem Artikel stellen wir eine innovative dynamische Manipulationsaufgabe vor: die Neupositionierung von Objekten. Diese Aufgabe beinhaltet die Verschiebung eines benutzerdefinierten Objekts an eine gewünschte Position unter Beibehaltung der Bildtreue. Unsere Forschung zeigt, dass die grundlegenden Teilaufgaben der Neupositionierung von Objekten, zu denen das Füllen der Lücke, die durch das verschobene Objekt entsteht, die Rekonstruktion verdeckter Teile des Objekts und die harmonische Einpassung des Objekts in die umgebenden Bereiche gehören, effektiv als eine einheitliche, promptgesteuerte Inpainting-Aufgabe reformuliert werden können. Folglich können wir ein einziges diffusionsbasiertes generatives Modell verwenden, um diese Teilaufgaben mithilfe verschiedener Aufgabenprompts zu lösen, die durch unsere vorgeschlagene Task-Inversion-Technik erlernt werden. Zusätzlich integrieren wir Vor- und Nachbearbeitungstechniken, um die Qualität der Neupositionierung weiter zu verbessern. Diese Elemente bilden zusammen unser SEgment-gEnerate-and-bLEnd (SEELE)-Framework. Um die Wirksamkeit von SEELE bei der Neupositionierung von Objekten zu bewerten, haben wir einen realen Datensatz zur Neupositionierung von Objekten namens ReS zusammengestellt. Unsere Ergebnisse auf ReS demonstrieren die Qualität der generierten Bilder nach der Neupositionierung.
English
Current image manipulation primarily centers on static manipulation, such as replacing specific regions within an image or altering its overall style. In this paper, we introduce an innovative dynamic manipulation task, subject repositioning. This task involves relocating a user-specified subject to a desired position while preserving the image's fidelity. Our research reveals that the fundamental sub-tasks of subject repositioning, which include filling the void left by the repositioned subject, reconstructing obscured portions of the subject and blending the subject to be consistent with surrounding areas, can be effectively reformulated as a unified, prompt-guided inpainting task. Consequently, we can employ a single diffusion generative model to address these sub-tasks using various task prompts learned through our proposed task inversion technique. Additionally, we integrate pre-processing and post-processing techniques to further enhance the quality of subject repositioning. These elements together form our SEgment-gEnerate-and-bLEnd (SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we assemble a real-world subject repositioning dataset called ReS. Our results on ReS demonstrate the quality of repositioned image generation.
PDF141December 15, 2024