Generazione Visiva di Testo in Contesti Reali
Visual Text Generation in the Wild
July 19, 2024
Autori: Yuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang
cs.AI
Abstract
Recentemente, con i rapidi progressi dei modelli generativi, il campo della generazione visiva di testo ha registrato significativi avanzamenti. Tuttavia, è ancora impegnativo produrre immagini di testo di alta qualità in scenari reali, poiché devono essere soddisfatti tre criteri fondamentali: (1) Fedeltà: le immagini di testo generate dovrebbero essere fotorealistiche e i contenuti dovrebbero corrispondere a quanto specificato nelle condizioni date; (2) Ragionevolezza: le regioni e i contenuti del testo generato dovrebbero essere coerenti con la scena; (3) Utilità: le immagini di testo generate dovrebbero facilitare compiti correlati (ad esempio, rilevamento e riconoscimento del testo). Dall'analisi emerge che i metodi esistenti, sia quelli basati sul rendering che quelli basati sulla diffusione, difficilmente soddisfano contemporaneamente tutti questi aspetti, limitando il loro campo di applicazione. Pertanto, in questo articolo proponiamo un generatore visivo di testo (denominato SceneVTG), in grado di produrre immagini di testo di alta qualità in contesti reali. Seguendo un paradigma a due fasi, SceneVTG sfrutta un Modello Linguistico Multimodale di Grande Scala per raccomandare regioni e contenuti di testo ragionevoli su più scale e livelli, che vengono utilizzati da un modello di diffusione condizionata come condizioni per generare immagini di testo. Esperimenti estensivi dimostrano che il proposto SceneVTG supera significativamente i metodi tradizionali basati sul rendering e i recenti metodi basati sulla diffusione in termini di fedeltà e ragionevolezza. Inoltre, le immagini generate offrono una superiore utilità per compiti di rilevamento e riconoscimento del testo. Codice e dataset sono disponibili su AdvancedLiterateMachinery.
English
Recently, with the rapid advancements of generative models, the field of
visual text generation has witnessed significant progress. However, it is still
challenging to render high-quality text images in real-world scenarios, as
three critical criteria should be satisfied: (1) Fidelity: the generated text
images should be photo-realistic and the contents are expected to be the same
as specified in the given conditions; (2) Reasonability: the regions and
contents of the generated text should cohere with the scene; (3) Utility: the
generated text images can facilitate related tasks (e.g., text detection and
recognition). Upon investigation, we find that existing methods, either
rendering-based or diffusion-based, can hardly meet all these aspects
simultaneously, limiting their application range. Therefore, we propose in this
paper a visual text generator (termed SceneVTG), which can produce high-quality
text images in the wild. Following a two-stage paradigm, SceneVTG leverages a
Multimodal Large Language Model to recommend reasonable text regions and
contents across multiple scales and levels, which are used by a conditional
diffusion model as conditions to generate text images. Extensive experiments
demonstrate that the proposed SceneVTG significantly outperforms traditional
rendering-based methods and recent diffusion-based methods in terms of fidelity
and reasonability. Besides, the generated images provide superior utility for
tasks involving text detection and text recognition. Code and datasets are
available at AdvancedLiterateMachinery.