Exploration de la fusion approfondie des grands modèles de langage et des transformateurs de diffusion pour la synthèse texte-image
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis
May 15, 2025
Auteurs: Bingda Tang, Boyang Zheng, Xichen Pan, Sayak Paul, Saining Xie
cs.AI
Résumé
Cet article ne décrit pas une nouvelle méthode ; il propose plutôt une exploration approfondie d'un espace de conception important mais peu étudié, lié aux récentes avancées dans la synthèse texte-image — plus précisément, la fusion profonde des grands modèles de langage (LLMs) et des transformateurs de diffusion (DiTs) pour la génération multimodale. Les études précédentes se sont principalement concentrées sur la performance globale du système plutôt que sur des comparaisons détaillées avec des méthodes alternatives, et les détails clés de conception ainsi que les protocoles d'entraînement étaient souvent non divulgués. Ces lacanes créent une incertitude quant au véritable potentiel de cette approche. Pour combler ces manques, nous menons une étude empirique sur la génération texte-image, en effectuant des comparaisons contrôlées avec des références établies, en analysant des choix de conception cruciaux, et en fournissant une recette claire et reproductible pour l'entraînement à grande échelle. Nous espérons que ce travail offre des points de données significatifs et des lignes directrices pratiques pour les futures recherches dans le domaine de la génération multimodale.
English
This paper does not describe a new method; instead, it provides a thorough
exploration of an important yet understudied design space related to recent
advances in text-to-image synthesis -- specifically, the deep fusion of large
language models (LLMs) and diffusion transformers (DiTs) for multi-modal
generation. Previous studies mainly focused on overall system performance
rather than detailed comparisons with alternative methods, and key design
details and training recipes were often left undisclosed. These gaps create
uncertainty about the real potential of this approach. To fill these gaps, we
conduct an empirical study on text-to-image generation, performing controlled
comparisons with established baselines, analyzing important design choices, and
providing a clear, reproducible recipe for training at scale. We hope this work
offers meaningful data points and practical guidelines for future research in
multi-modal generation.Summary
AI-Generated Summary