ChatPaper.aiChatPaper

TIP: セマンティックと復元を伴うテキスト駆動型画像処理 インストラクション

TIP: Text-Driven Image Processing with Semantic and Restoration Instructions

December 18, 2023
著者: Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman Milanfar, Qifeng Chen, Hossein Talebi
cs.AI

要旨

テキスト駆動型拡散モデルは、インペインティング、スタイライゼーション、オブジェクト置換など、さまざまな画像編集タスクにおいてますます人気を集めています。しかし、ノイズ除去、超解像、デブラー、圧縮アーティファクト除去といった、より細かいレベルの画像処理タスクにこの言語-視覚パラダイムを適用することは、依然として未解決の研究課題です。本論文では、自然言語をユーザーフレンドリーなインターフェースとして活用し、画像復元プロセスを制御するテキスト駆動型画像処理フレームワーク「TIP」を開発します。我々は、テキスト情報の能力を2つの次元で考察します。まず、コンテンツ関連のプロンプトを使用してセマンティックアラインメントを強化し、復元結果におけるアイデンティティの曖昧さを効果的に軽減します。次に、我々のアプローチは、タスク固有の設計を必要とせず、言語ベースの定量的な復元強度の指定を通じて細かいレベルの指示をサポートする初めてのフレームワークです。さらに、既存のControlNetアーキテクチャを拡張し、生成事前分布の再スケーリングを学習する新しい融合メカニズムを導入することで、より優れた復元忠実度を実現します。我々の広範な実験は、TIPが最先端技術と比較して優れた復元性能を示すとともに、復元効果に対するテキストベースの制御の柔軟性を提供することを実証しています。
English
Text-driven diffusion models have become increasingly popular for various image editing tasks, including inpainting, stylization, and object replacement. However, it still remains an open research problem to adopt this language-vision paradigm for more fine-level image processing tasks, such as denoising, super-resolution, deblurring, and compression artifact removal. In this paper, we develop TIP, a Text-driven Image Processing framework that leverages natural language as a user-friendly interface to control the image restoration process. We consider the capacity of text information in two dimensions. First, we use content-related prompts to enhance the semantic alignment, effectively alleviating identity ambiguity in the restoration outcomes. Second, our approach is the first framework that supports fine-level instruction through language-based quantitative specification of the restoration strength, without the need for explicit task-specific design. In addition, we introduce a novel fusion mechanism that augments the existing ControlNet architecture by learning to rescale the generative prior, thereby achieving better restoration fidelity. Our extensive experiments demonstrate the superior restoration performance of TIP compared to the state of the arts, alongside offering the flexibility of text-based control over the restoration effects.
PDF61December 15, 2024