ChatPaper.aiChatPaper

TIP: 시맨틱 및 복원을 통한 텍스트 기반 이미지 처리 지침

TIP: Text-Driven Image Processing with Semantic and Restoration Instructions

December 18, 2023
저자: Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman Milanfar, Qifeng Chen, Hossein Talebi
cs.AI

초록

텍스트 기반 확산 모델은 이미지 인페인팅, 스타일화, 객체 교체 등 다양한 이미지 편집 작업에서 점점 더 널리 사용되고 있습니다. 그러나 노이즈 제거, 초해상도, 디블러링, 압축 아티팩트 제거와 같은 더 세밀한 수준의 이미지 처리 작업에 이 언어-비전 패러다임을 적용하는 것은 여전히 열린 연구 문제로 남아 있습니다. 본 논문에서는 자연어를 사용자 친화적인 인터페이스로 활용하여 이미지 복원 과정을 제어하는 TIP(Text-driven Image Processing) 프레임워크를 개발합니다. 우리는 텍스트 정보의 능력을 두 가지 차원에서 고려합니다. 첫째, 콘텐츠 관련 프롬프트를 사용하여 의미론적 정렬을 강화함으로써 복원 결과에서의 정체성 모호성을 효과적으로 완화합니다. 둘째, 우리의 접근 방식은 명시적인 작업별 설계 없이도 언어 기반의 정량적 복원 강도 지정을 통해 세밀한 수준의 지시를 지원하는 최초의 프레임워크입니다. 또한, 우리는 기존 ControlNet 아키텍처를 보완하는 새로운 융합 메커니즘을 도입하여 생성적 사전 정보를 재조정하는 방법을 학습함으로써 더 나은 복원 충실도를 달성합니다. 우리의 광범위한 실험은 TIP가 최신 기술 대비 우수한 복원 성능을 보여줄 뿐만 아니라, 복원 효과에 대한 텍스트 기반 제어의 유연성을 제공함을 입증합니다.
English
Text-driven diffusion models have become increasingly popular for various image editing tasks, including inpainting, stylization, and object replacement. However, it still remains an open research problem to adopt this language-vision paradigm for more fine-level image processing tasks, such as denoising, super-resolution, deblurring, and compression artifact removal. In this paper, we develop TIP, a Text-driven Image Processing framework that leverages natural language as a user-friendly interface to control the image restoration process. We consider the capacity of text information in two dimensions. First, we use content-related prompts to enhance the semantic alignment, effectively alleviating identity ambiguity in the restoration outcomes. Second, our approach is the first framework that supports fine-level instruction through language-based quantitative specification of the restoration strength, without the need for explicit task-specific design. In addition, we introduce a novel fusion mechanism that augments the existing ControlNet architecture by learning to rescale the generative prior, thereby achieving better restoration fidelity. Our extensive experiments demonstrate the superior restoration performance of TIP compared to the state of the arts, alongside offering the flexibility of text-based control over the restoration effects.
PDF61December 15, 2024