Het verkennen van de diepe integratie van grote taalmodellen en diffusie-transformatoren voor tekst-naar-beeld synthese
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis
May 15, 2025
Auteurs: Bingda Tang, Boyang Zheng, Xichen Pan, Sayak Paul, Saining Xie
cs.AI
Samenvatting
Dit artikel beschrijft geen nieuwe methode; in plaats daarvan biedt het een grondige verkenning van een belangrijk maar onderbelicht ontwerpgebied dat verband houdt met recente vooruitgang in tekst-naar-beeldsynthese -- specifiek, de diepe integratie van grote taalmodellen (LLMs) en diffusie-transformers (DiTs) voor multimodale generatie. Eerdere studies richtten zich voornamelijk op de algehele systeemprestaties in plaats van gedetailleerde vergelijkingen met alternatieve methoden, en belangrijke ontwerpdetails en trainingsrecepten werden vaak niet vrijgegeven. Deze hiaten creëren onzekerheid over het werkelijke potentieel van deze aanpak. Om deze lacunes op te vullen, voeren we een empirische studie uit naar tekst-naar-beeldgeneratie, waarbij we gecontroleerde vergelijkingen maken met gevestigde baselines, belangrijke ontwerpkeuzes analyseren en een duidelijk, reproduceerbaar recept bieden voor training op grote schaal. We hopen dat dit werk zinvolle datapunten en praktische richtlijnen biedt voor toekomstig onderzoek in multimodale generatie.
English
This paper does not describe a new method; instead, it provides a thorough
exploration of an important yet understudied design space related to recent
advances in text-to-image synthesis -- specifically, the deep fusion of large
language models (LLMs) and diffusion transformers (DiTs) for multi-modal
generation. Previous studies mainly focused on overall system performance
rather than detailed comparisons with alternative methods, and key design
details and training recipes were often left undisclosed. These gaps create
uncertainty about the real potential of this approach. To fill these gaps, we
conduct an empirical study on text-to-image generation, performing controlled
comparisons with established baselines, analyzing important design choices, and
providing a clear, reproducible recipe for training at scale. We hope this work
offers meaningful data points and practical guidelines for future research in
multi-modal generation.Summary
AI-Generated Summary