LDGen: Verbesserung der Text-zu-Bild-Synthese durch sprachliche Repräsentation mittels großer Sprachmodelle
LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation
February 25, 2025
Autoren: Pengzhi Li, Pengfei Yu, Zide Liu, Wei He, Xuhao Pan, Xudong Rao, Tao Wei, Wei Chen
cs.AI
Zusammenfassung
In diesem Artikel stellen wir LDGen vor, eine neuartige Methode zur Integration großer Sprachmodelle (LLMs) in bestehende Text-zu-Bild-Diffusionsmodelle bei gleichzeitiger Minimierung des Rechenaufwands. Traditionelle Textkodierer wie CLIP und T5 weisen Einschränkungen bei der multilingualen Verarbeitung auf, was die Bildgenerierung über verschiedene Sprachen hinweg behindert. Wir adressieren diese Herausforderungen, indem wir die fortschrittlichen Fähigkeiten von LLMs nutzen. Unser Ansatz verwendet eine Sprachrepräsentationsstrategie, die hierarchische Bildunterschriftenoptimierung und menschliche Instruktionstechniken anwendet, um präzise semantische Informationen abzuleiten. Anschließend integrieren wir einen leichtgewichtigen Adapter und einen Cross-Modal-Refiner, um eine effiziente Merkmalsausrichtung und Interaktion zwischen LLMs und Bildmerkmalen zu ermöglichen. LDGen reduziert die Trainingszeit und ermöglicht die Zero-Shot-Bildgenerierung in mehreren Sprachen. Experimentelle Ergebnisse zeigen, dass unsere Methode die Basismodelle sowohl in Bezug auf die Prompt-Treue als auch auf die ästhetische Qualität der Bilder übertrifft und dabei nahtlos mehrere Sprachen unterstützt. Projektseite: https://zrealli.github.io/LDGen.
English
In this paper, we introduce LDGen, a novel method for integrating large
language models (LLMs) into existing text-to-image diffusion models while
minimizing computational demands. Traditional text encoders, such as CLIP and
T5, exhibit limitations in multilingual processing, hindering image generation
across diverse languages. We address these challenges by leveraging the
advanced capabilities of LLMs. Our approach employs a language representation
strategy that applies hierarchical caption optimization and human instruction
techniques to derive precise semantic information,. Subsequently, we
incorporate a lightweight adapter and a cross-modal refiner to facilitate
efficient feature alignment and interaction between LLMs and image features.
LDGen reduces training time and enables zero-shot multilingual image
generation. Experimental results indicate that our method surpasses baseline
models in both prompt adherence and image aesthetic quality, while seamlessly
supporting multiple languages. Project page: https://zrealli.github.io/LDGen.Summary
AI-Generated Summary