ChatPaper.aiChatPaper

GRAN-TED: Generierung robuster, ausgerichteter und nuancierter Texteinbettungen für Diffusionsmodelle

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

December 17, 2025
papers.authors: Bozhou Li, Sihan Yang, Yushuo Guan, Ruichuan An, Xinlong Chen, Yang Shi, Pengfei Wan, Wentao Zhang, Yuanxing zhang
cs.AI

papers.abstract

Der Text-Encoder ist eine kritische Komponente von Text-zu-Bild- und Text-zu-Video-Diffusionsmodellen, die grundlegend die semantische Treue des generierten Inhalts bestimmt. Seine Entwicklung wurde jedoch durch zwei große Herausforderungen behindert: das Fehlen eines effizienten Bewertungsrahmens, der die Downstream-Generierungsleistung zuverlässig vorhersagt, und die Schwierigkeit, vortrainierte Sprachmodelle effektiv für die visuelle Synthese anzupassen. Um diese Probleme zu lösen, führen wir GRAN-TED ein, ein Paradigma zur Erzeugung robuster, ausgerichteter und nuancierter Text-Einbettungen für Diffusionsmodelle. Unser Beitrag ist zweigeteilt. Erstens schlagen wir TED-6K vor, ein neuartiges textbasiertes Benchmark, das eine effiziente und robuste Bewertung der Repräsentationsqualität eines Encoders ermöglicht, ohne kostspieliges End-to-End-Modelltraining zu erfordern. Wir zeigen, dass die Leistung auf TED-6K, standardisiert über einen leichtgewichtigen, einheitlichen Adapter, stark mit der Effektivität eines Encoders in Downstream-Generierungsaufgaben korreliert. Bemerkenswerterweise ist die Bewertung mit TED-6K in unserem experimentellen Aufbau etwa 750-mal schneller als das Training eines Diffusionsmodells von Grund auf. Zweitens entwickeln wir, geleitet durch diesen validierten Rahmen, einen überlegenen Text-Encoder unter Verwendung eines neuartigen zweistufigen Trainingsparadigmas. Dieser Prozess umfasst eine anfängliche Feinanpassungsphase an einem multimodalen Large Language Model für bessere visuelle Repräsentation, gefolgt von einer schichtenweisen Gewichtungsmethode, um nuanciertere und potentere Textmerkmale zu extrahieren. Unsere Experimente zeigen, dass der resultierende GRAN-TED-Encoder nicht nur state-of-the-art Leistung auf TED-6K erzielt, sondern auch zu nachweislichen Leistungssteigerungen in der Text-zu-Bild- und Text-zu-Video-Generierung führt. Unser TED-6K-Datensatz und unser Bewertungscode sind unter folgendem Link verfügbar: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
English
The text encoder is a critical component of text-to-image and text-to-video diffusion models, fundamentally determining the semantic fidelity of the generated content. However, its development has been hindered by two major challenges: the lack of an efficient evaluation framework that reliably predicts downstream generation performance, and the difficulty of effectively adapting pretrained language models for visual synthesis. To address these issues, we introduce GRAN-TED, a paradigm to Generate Robust, Aligned, and Nuanced Text Embeddings for Diffusion models. Our contribution is twofold. First, we propose TED-6K, a novel text-only benchmark that enables efficient and robust assessment of an encoder's representational quality without requiring costly end-to-end model training. We demonstrate that performance on TED-6K, standardized via a lightweight, unified adapter, strongly correlates with an encoder's effectiveness in downstream generation tasks. Notably, under our experimental setup, compared with training a diffusion model from scratch, evaluating with TED-6K is about 750times faster. Second, guided by this validated framework, we develop a superior text encoder using a novel two-stage training paradigm. This process involves an initial fine-tuning stage on a Multimodal Large Language Model for better visual representation, followed by a layer-wise weighting method to extract more nuanced and potent text features. Our experiments show that the resulting GRAN-TED encoder not only achieves state-of-the-art performance on TED-6K but also leads to demonstrable performance gains in text-to-image and text-to-video generation. Our TED-6K dataset and evaluation code are available at the following link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
PDF211December 31, 2025