ChatPaper.aiChatPaper

TIP: Tekstgestuurde beeldverwerking met semantiek en restauratie Instructies

TIP: Text-Driven Image Processing with Semantic and Restoration Instructions

December 18, 2023
Auteurs: Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman Milanfar, Qifeng Chen, Hossein Talebi
cs.AI

Samenvatting

Tekstgestuurde diffusiemodellen zijn steeds populairder geworden voor diverse beeldbewerkingstaken, zoals inpainting, stilisering en objectvervanging. Het blijft echter een open onderzoeksprobleem om dit taal-visieparadigma toe te passen op meer gedetailleerde beeldverwerkingstaken, zoals ruisreductie, superresolutie, deblurring en het verwijderen van compressieartefacten. In dit paper ontwikkelen we TIP, een tekstgestuurd beeldverwerkingsframework dat natuurlijke taal gebruikt als gebruiksvriendelijke interface om het beeldherstelproces te sturen. We beschouwen de capaciteit van tekstinformatie in twee dimensies. Ten eerste gebruiken we inhoudsgerichte prompts om de semantische uitlijning te verbeteren, waardoor identiteitsambiguïteit in de herstelresultaten effectief wordt verminderd. Ten tweede is onze aanpak het eerste framework dat fijnmazige instructies ondersteunt via taalgebaseerde kwantitatieve specificatie van de herstelsterkte, zonder expliciete taakspecifieke ontwerpen. Daarnaast introduceren we een nieuw fusiemechanisme dat de bestaande ControlNet-architectuur versterkt door te leren hoe de generatieve prior opnieuw geschaald moet worden, waardoor een betere herstelfideliteit wordt bereikt. Onze uitgebreide experimenten tonen de superieure herstelprestaties van TIP aan in vergelijking met de state-of-the-art, naast de flexibiliteit van tekstgebaseerde controle over de hersteleffecten.
English
Text-driven diffusion models have become increasingly popular for various image editing tasks, including inpainting, stylization, and object replacement. However, it still remains an open research problem to adopt this language-vision paradigm for more fine-level image processing tasks, such as denoising, super-resolution, deblurring, and compression artifact removal. In this paper, we develop TIP, a Text-driven Image Processing framework that leverages natural language as a user-friendly interface to control the image restoration process. We consider the capacity of text information in two dimensions. First, we use content-related prompts to enhance the semantic alignment, effectively alleviating identity ambiguity in the restoration outcomes. Second, our approach is the first framework that supports fine-level instruction through language-based quantitative specification of the restoration strength, without the need for explicit task-specific design. In addition, we introduce a novel fusion mechanism that augments the existing ControlNet architecture by learning to rescale the generative prior, thereby achieving better restoration fidelity. Our extensive experiments demonstrate the superior restoration performance of TIP compared to the state of the arts, alongside offering the flexibility of text-based control over the restoration effects.
PDF61December 15, 2024