RepText: Visuellen Text durch Replizierung darstellen
RepText: Rendering Visual Text via Replicating
April 28, 2025
Autoren: Haofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
cs.AI
Zusammenfassung
Obwohl zeitgenössische Text-zu-Bild-Generierungsmodelle bemerkenswerte Durchbrüche bei der Erzeugung visuell ansprechender Bilder erzielt haben, bleibt ihre Fähigkeit, präzise und flexible typografische Elemente, insbesondere nicht-lateinische Alphabete, zu generieren, eingeschränkt. Um diese Einschränkungen zu überwinden, gehen wir von einer naiven Annahme aus, dass Textverständnis lediglich eine hinreichende, aber keine notwendige Bedingung für die Textdarstellung ist. Basierend darauf präsentieren wir RepText, das darauf abzielt, vortrainierte monolinguale Text-zu-Bild-Generierungsmodelle mit der Fähigkeit auszustatten, mehrsprachige visuelle Texte in benutzerdefinierten Schriftarten präzise – oder genauer gesagt, zu replizieren – ohne die Notwendigkeit, sie tatsächlich zu verstehen. Konkret übernehmen wir die Einstellungen von ControlNet und integrieren zusätzlich sprachunabhängige Glyphen und Positionen des gerenderten Textes, um die Erzeugung harmonischer visueller Texte zu ermöglichen, wodurch Benutzer den Textinhalt, die Schriftart und die Position nach ihren Bedürfnissen anpassen können. Um die Genauigkeit zu verbessern, wird ein textueller Wahrnehmungsverlust zusammen mit dem Diffusionsverlust eingesetzt. Darüber hinaus initialisieren wir in der Inferenzphase direkt mit einem verrauschten Glyphen-Latent anstelle einer zufälligen Initialisierung und verwenden Regionsmasken, um die Feature-Injektion auf den Textbereich zu beschränken und somit Verzerrungen des Hintergrunds zu vermeiden. Wir führten umfangreiche Experimente durch, um die Wirksamkeit unseres RepText im Vergleich zu bestehenden Arbeiten zu überprüfen. Unser Ansatz übertrifft bestehende Open-Source-Methoden und erreicht vergleichbare Ergebnisse zu nativen mehrsprachigen Closed-Source-Modellen. Um fair zu sein, diskutieren wir am Ende auch ausführlich seine Grenzen.
English
Although contemporary text-to-image generation models have achieved
remarkable breakthroughs in producing visually appealing images, their capacity
to generate precise and flexible typographic elements, especially non-Latin
alphabets, remains constrained. To address these limitations, we start from an
naive assumption that text understanding is only a sufficient condition for
text rendering, but not a necessary condition. Based on this, we present
RepText, which aims to empower pre-trained monolingual text-to-image generation
models with the ability to accurately render, or more precisely, replicate,
multilingual visual text in user-specified fonts, without the need to really
understand them. Specifically, we adopt the setting from ControlNet and
additionally integrate language agnostic glyph and position of rendered text to
enable generating harmonized visual text, allowing users to customize text
content, font and position on their needs. To improve accuracy, a text
perceptual loss is employed along with the diffusion loss. Furthermore, to
stabilize rendering process, at the inference phase, we directly initialize
with noisy glyph latent instead of random initialization, and adopt region
masks to restrict the feature injection to only the text region to avoid
distortion of the background. We conducted extensive experiments to verify the
effectiveness of our RepText relative to existing works, our approach
outperforms existing open-source methods and achieves comparable results to
native multi-language closed-source models. To be more fair, we also
exhaustively discuss its limitations in the end.Summary
AI-Generated Summary