야생 환경에서의 시각적 텍스트 생성
Visual Text Generation in the Wild
July 19, 2024
저자: Yuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang
cs.AI
초록
최근 생성 모델의 급속한 발전과 함께 시각적 텍스트 생성 분야에서 상당한 진전이 이루어졌습니다. 그러나 실제 환경에서 고품질의 텍스트 이미지를 렌더링하는 것은 여전히 도전적인 과제로, 세 가지 중요한 기준을 충족해야 합니다: (1) 정확성(Fidelity): 생성된 텍스트 이미지는 사실적이어야 하며, 주어진 조건에 명시된 내용과 일치해야 합니다; (2) 합리성(Reasonability): 생성된 텍스트의 영역과 내용은 장면과 조화를 이루어야 합니다; (3) 유용성(Utility): 생성된 텍스트 이미지는 텍스트 탐지 및 인식과 같은 관련 작업에 도움을 줄 수 있어야 합니다. 조사 결과, 기존의 렌더링 기반 방법이나 확산 기반 방법 모두 이러한 모든 측면을 동시에 충족하기 어려워 적용 범위가 제한적임을 발견했습니다. 따라서 본 논문에서는 야외 환경에서 고품질의 텍스트 이미지를 생성할 수 있는 시각적 텍스트 생성기(SceneVTG)를 제안합니다. SceneVTG는 두 단계의 패러다임을 따르며, 다중 모달 대형 언어 모델을 활용하여 다양한 규모와 수준에서 합리적인 텍스트 영역과 내용을 추천하고, 이를 조건으로 사용하여 조건부 확산 모델이 텍스트 이미지를 생성합니다. 광범위한 실험을 통해 제안된 SceneVTG가 기존의 렌더링 기반 방법과 최근의 확산 기반 방법보다 정확성과 합리성 측면에서 크게 우수함을 입증했습니다. 또한, 생성된 이미지는 텍스트 탐지 및 인식 작업에서 우수한 유용성을 제공합니다. 코드와 데이터셋은 AdvancedLiterateMachinery에서 확인할 수 있습니다.
English
Recently, with the rapid advancements of generative models, the field of
visual text generation has witnessed significant progress. However, it is still
challenging to render high-quality text images in real-world scenarios, as
three critical criteria should be satisfied: (1) Fidelity: the generated text
images should be photo-realistic and the contents are expected to be the same
as specified in the given conditions; (2) Reasonability: the regions and
contents of the generated text should cohere with the scene; (3) Utility: the
generated text images can facilitate related tasks (e.g., text detection and
recognition). Upon investigation, we find that existing methods, either
rendering-based or diffusion-based, can hardly meet all these aspects
simultaneously, limiting their application range. Therefore, we propose in this
paper a visual text generator (termed SceneVTG), which can produce high-quality
text images in the wild. Following a two-stage paradigm, SceneVTG leverages a
Multimodal Large Language Model to recommend reasonable text regions and
contents across multiple scales and levels, which are used by a conditional
diffusion model as conditions to generate text images. Extensive experiments
demonstrate that the proposed SceneVTG significantly outperforms traditional
rendering-based methods and recent diffusion-based methods in terms of fidelity
and reasonability. Besides, the generated images provide superior utility for
tasks involving text detection and text recognition. Code and datasets are
available at AdvancedLiterateMachinery.Summary
AI-Generated Summary