Explorando la Fusión Profunda de Modelos de Lenguaje a Gran Escala y Transformadores de Difusión para la Síntesis de Texto a Imagen
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis
May 15, 2025
Autores: Bingda Tang, Boyang Zheng, Xichen Pan, Sayak Paul, Saining Xie
cs.AI
Resumen
Este artículo no describe un método nuevo; en su lugar, ofrece una exploración exhaustiva de un espacio de diseño importante pero poco estudiado relacionado con los avances recientes en la síntesis de texto a imagen —específicamente, la fusión profunda de modelos de lenguaje de gran escala (LLMs) y transformadores de difusión (DiTs) para la generación multimodal. Estudios previos se centraron principalmente en el rendimiento general del sistema en lugar de realizar comparaciones detalladas con métodos alternativos, y los detalles clave de diseño y las recetas de entrenamiento a menudo no se revelaron. Estas brechas generan incertidumbre sobre el verdadero potencial de este enfoque. Para llenar estos vacíos, realizamos un estudio empírico sobre la generación de texto a imagen, llevando a cabo comparaciones controladas con líneas base establecidas, analizando decisiones de diseño importantes y proporcionando una receta clara y reproducible para el entrenamiento a gran escala. Esperamos que este trabajo ofrezca puntos de datos significativos y pautas prácticas para futuras investigaciones en generación multimodal.
English
This paper does not describe a new method; instead, it provides a thorough
exploration of an important yet understudied design space related to recent
advances in text-to-image synthesis -- specifically, the deep fusion of large
language models (LLMs) and diffusion transformers (DiTs) for multi-modal
generation. Previous studies mainly focused on overall system performance
rather than detailed comparisons with alternative methods, and key design
details and training recipes were often left undisclosed. These gaps create
uncertainty about the real potential of this approach. To fill these gaps, we
conduct an empirical study on text-to-image generation, performing controlled
comparisons with established baselines, analyzing important design choices, and
providing a clear, reproducible recipe for training at scale. We hope this work
offers meaningful data points and practical guidelines for future research in
multi-modal generation.Summary
AI-Generated Summary