GRAN-TED : Génération d'Empreintes Textuelles Robuste, Alignée et Nuancée pour les Modèles de Diffusion
GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models
December 17, 2025
papers.authors: Bozhou Li, Sihan Yang, Yushuo Guan, Ruichuan An, Xinlong Chen, Yang Shi, Pengfei Wan, Wentao Zhang, Yuanxing zhang
cs.AI
papers.abstract
L'encodeur de texte est un composant essentiel des modèles de diffusion texte-image et texte-vidéo, déterminant fondamentalement la fidélité sémantique du contenu généré. Cependant, son développement a été entravé par deux défis majeurs : l'absence d'un cadre d'évaluation efficace permettant de prédire de manière fiable les performances de génération en aval, et la difficulté d'adapter efficacement des modèles de langage pré-entraînés pour la synthèse visuelle. Pour résoudre ces problèmes, nous présentons GRAN-TED, un paradigme pour Générer des Représentations Textuelles Robuste, Alignées et Nuancées pour les modèles de Diffusion. Notre contribution est double. Premièrement, nous proposons TED-6K, un nouveau benchmark textuel uniquement qui permet une évaluation efficace et robuste de la qualité représentationnelle d'un encodeur sans nécessiter un coûteux entraînement de modèle de bout en bout. Nous démontrons que les performances sur TED-6K, standardisées via un adaptateur unifié léger, sont fortement corrélées à l'efficacité d'un encodeur dans les tâches de génération en aval. Notamment, dans notre configuration expérimentale, par rapport à l'entraînement d'un modèle de diffusion à partir de zéro, l'évaluation avec TED-6K est environ 750 fois plus rapide. Deuxièmement, guidés par ce cadre validé, nous développons un encodeur de texte supérieur en utilisant un nouveau paradigme d'entraînement en deux étapes. Ce processus implique une étape initiale de micro-ajustage sur un Grand Modèle de Langage Multimodal pour une meilleure représentation visuelle, suivie d'une méthode de pondération couche par couche pour extraire des caractéristiques textuelles plus nuancées et puissantes. Nos expériences montrent que l'encodeur GRAN-TED résultant non seulement obtient des performances de pointe sur TED-6K, mais conduit également à des gains de performance démontrables dans la génération texte-image et texte-vidéo. Notre jeu de données TED-6K et notre code d'évaluation sont disponibles à l'adresse suivante : https://anonymous.4open.science/r/GRAN-TED-4FCC/.
English
The text encoder is a critical component of text-to-image and text-to-video diffusion models, fundamentally determining the semantic fidelity of the generated content. However, its development has been hindered by two major challenges: the lack of an efficient evaluation framework that reliably predicts downstream generation performance, and the difficulty of effectively adapting pretrained language models for visual synthesis. To address these issues, we introduce GRAN-TED, a paradigm to Generate Robust, Aligned, and Nuanced Text Embeddings for Diffusion models. Our contribution is twofold. First, we propose TED-6K, a novel text-only benchmark that enables efficient and robust assessment of an encoder's representational quality without requiring costly end-to-end model training. We demonstrate that performance on TED-6K, standardized via a lightweight, unified adapter, strongly correlates with an encoder's effectiveness in downstream generation tasks. Notably, under our experimental setup, compared with training a diffusion model from scratch, evaluating with TED-6K is about 750times faster. Second, guided by this validated framework, we develop a superior text encoder using a novel two-stage training paradigm. This process involves an initial fine-tuning stage on a Multimodal Large Language Model for better visual representation, followed by a layer-wise weighting method to extract more nuanced and potent text features. Our experiments show that the resulting GRAN-TED encoder not only achieves state-of-the-art performance on TED-6K but also leads to demonstrable performance gains in text-to-image and text-to-video generation. Our TED-6K dataset and evaluation code are available at the following link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.