LDGen: Verbesserung der Text-zu-Bild-Synthese durch sprachliche Repräsentation mittels großer Sprachmodelle

papers.abstract

In diesem Artikel stellen wir LDGen vor, eine neuartige Methode zur Integration großer Sprachmodelle (LLMs) in bestehende Text-zu-Bild-Diffusionsmodelle bei gleichzeitiger Minimierung des Rechenaufwands. Traditionelle Textkodierer wie CLIP und T5 weisen Einschränkungen bei der multilingualen Verarbeitung auf, was die Bildgenerierung über verschiedene Sprachen hinweg behindert. Wir adressieren diese Herausforderungen, indem wir die fortschrittlichen Fähigkeiten von LLMs nutzen. Unser Ansatz verwendet eine Sprachrepräsentationsstrategie, die hierarchische Bildunterschriftenoptimierung und menschliche Instruktionstechniken anwendet, um präzise semantische Informationen abzuleiten. Anschließend integrieren wir einen leichtgewichtigen Adapter und einen Cross-Modal-Refiner, um eine effiziente Merkmalsausrichtung und Interaktion zwischen LLMs und Bildmerkmalen zu ermöglichen. LDGen reduziert die Trainingszeit und ermöglicht die Zero-Shot-Bildgenerierung in mehreren Sprachen. Experimentelle Ergebnisse zeigen, dass unsere Methode die Basismodelle sowohl in Bezug auf die Prompt-Treue als auch auf die ästhetische Qualität der Bilder übertrifft und dabei nahtlos mehrere Sprachen unterstützt. Projektseite: https://zrealli.github.io/LDGen.

English

In this paper, we introduce LDGen, a novel method for integrating large language models (LLMs) into existing text-to-image diffusion models while minimizing computational demands. Traditional text encoders, such as CLIP and T5, exhibit limitations in multilingual processing, hindering image generation across diverse languages. We address these challenges by leveraging the advanced capabilities of LLMs. Our approach employs a language representation strategy that applies hierarchical caption optimization and human instruction techniques to derive precise semantic information,. Subsequently, we incorporate a lightweight adapter and a cross-modal refiner to facilitate efficient feature alignment and interaction between LLMs and image features. LDGen reduces training time and enables zero-shot multilingual image generation. Experimental results indicate that our method surpasses baseline models in both prompt adherence and image aesthetic quality, while seamlessly supporting multiple languages. Project page: https://zrealli.github.io/LDGen.

LDGen: Verbesserung der Text-zu-Bild-Synthese durch sprachliche Repräsentation mittels großer Sprachmodelle

LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation

papers.abstract

Support