ChatPaper.aiChatPaper

GRAN-TED: Generación de Incrustaciones de Texto Robustas, Alineadas y Matizadas para Modelos de Difusión

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

December 17, 2025
Autores: Bozhou Li, Sihan Yang, Yushuo Guan, Ruichuan An, Xinlong Chen, Yang Shi, Pengfei Wan, Wentao Zhang, Yuanxing zhang
cs.AI

Resumen

El codificador de texto es un componente crítico en los modelos de difusión de texto a imagen y texto a video, determinando fundamentalmente la fidelidad semántica del contenido generado. Sin embargo, su desarrollo se ha visto obstaculizado por dos grandes desafíos: la falta de un marco de evaluación eficiente que prediga de manera fiable el rendimiento en la generación posterior, y la dificultad de adaptar eficazmente los modelos de lenguaje preentrenados para la síntesis visual. Para abordar estos problemas, presentamos GRAN-TED, un paradigma para Generar Incrustaciones de Texto Robustas, Alineadas y Matizadas para modelos de Difusión. Nuestra contribución es doble. En primer lugar, proponemos TED-6K, un nuevo benchmark basado únicamente en texto que permite una evaluación eficiente y robusta de la calidad representacional de un codificador sin requerir el costoso entrenamiento de modelos de extremo a extremo. Demostramos que el rendimiento en TED-6K, estandarizado mediante un adaptador unificado y ligero, se correlaciona fuertemente con la efectividad de un codificador en tareas de generación posteriores. Cabe destacar que, en nuestra configuración experimental, en comparación con entrenar un modelo de difusión desde cero, la evaluación con TED-6K es aproximadamente 750 veces más rápida. En segundo lugar, guiados por este marco validado, desarrollamos un codificador de texto superior utilizando un nuevo paradigma de entrenamiento en dos etapas. Este proceso implica una etapa inicial de ajuste fino en un Modelo de Lenguaje Grande Multimodal para una mejor representación visual, seguida de un método de ponderación por capas para extraer características de texto más matizadas y potentes. Nuestros experimentos muestran que el codificador GRAN-TED resultante no solo logra un rendimiento de vanguardia en TED-6K, sino que también conduce a ganancias de rendimiento demostrables en la generación de texto a imagen y texto a video. Nuestro conjunto de datos TED-6K y el código de evaluación están disponibles en el siguiente enlace: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
English
The text encoder is a critical component of text-to-image and text-to-video diffusion models, fundamentally determining the semantic fidelity of the generated content. However, its development has been hindered by two major challenges: the lack of an efficient evaluation framework that reliably predicts downstream generation performance, and the difficulty of effectively adapting pretrained language models for visual synthesis. To address these issues, we introduce GRAN-TED, a paradigm to Generate Robust, Aligned, and Nuanced Text Embeddings for Diffusion models. Our contribution is twofold. First, we propose TED-6K, a novel text-only benchmark that enables efficient and robust assessment of an encoder's representational quality without requiring costly end-to-end model training. We demonstrate that performance on TED-6K, standardized via a lightweight, unified adapter, strongly correlates with an encoder's effectiveness in downstream generation tasks. Notably, under our experimental setup, compared with training a diffusion model from scratch, evaluating with TED-6K is about 750times faster. Second, guided by this validated framework, we develop a superior text encoder using a novel two-stage training paradigm. This process involves an initial fine-tuning stage on a Multimodal Large Language Model for better visual representation, followed by a layer-wise weighting method to extract more nuanced and potent text features. Our experiments show that the resulting GRAN-TED encoder not only achieves state-of-the-art performance on TED-6K but also leads to demonstrable performance gains in text-to-image and text-to-video generation. Our TED-6K dataset and evaluation code are available at the following link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
PDF211December 31, 2025