ChatPaper.aiChatPaper

GRAN-TED: Het Genereren van Robuuste, Uitgelijnde en Genuanceerde Tekst-inbeddingen voor Diffusiemodellen

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

December 17, 2025
Auteurs: Bozhou Li, Sihan Yang, Yushuo Guan, Ruichuan An, Xinlong Chen, Yang Shi, Pengfei Wan, Wentao Zhang, Yuanxing zhang
cs.AI

Samenvatting

De tekstencoder is een cruciaal onderdeel van tekst-naar-beeld en tekst-naar-video diffusiemodellen, en bepaalt in essentie de semantische nauwkeurigheid van de gegenereerde inhoud. De ontwikkeling ervan wordt echter belemmerd door twee grote uitdagingen: het ontbreken van een efficiënt evaluatieraamwerk dat de prestaties voor downstream-generatie betrouwbaar voorspelt, en de moeilijkheid om vooraf getrainde taalmodellen effectief aan te passen voor visuele synthese. Om deze problemen aan te pakken, introduceren we GRAN-TED, een paradigma om Robuuste, Uitgelijnde en Genuanceerde Tekst-inbeddingen te Genereren voor diffusiemodellen. Onze bijdrage is tweeledig. Ten eerste stellen we TED-6K voor, een nieuwe tekstuele benchmark die een efficiënte en robuuste beoordeling van de representatiekwaliteit van een encoder mogelijk maakt, zonder dure end-to-end modeltraining. We tonen aan dat de prestaties op TED-6K, gestandaardiseerd via een lichtgewicht, uniforme adapter, sterk correleren met de effectiviteit van een encoder in downstream-generatietaken. Opmerkelijk is dat, in onze experimentele opzet, evaluatie met TED-6K ongeveer 750 keer sneller is dan het trainen van een diffusiemodel vanaf nul. Ten tweede, geleid door dit gevalideerde raamwerk, ontwikkelen we een superieure tekstencoder met behulp van een nieuwe tweefasige trainingsparadigma. Dit proces omvat een initiële fine-tuningfase op een Multimodaal Taalmodel voor betere visuele representatie, gevolgd door een laagsgewijze wegingmethode om meer genuanceerde en krachtige tekstkenmerken te extraheren. Onze experimenten tonen aan dat de resulterende GRAN-TED-encoder niet alleen state-of-the-art prestaties behaalt op TED-6K, maar ook leidt tot aantoonbare prestatieverbeteringen in tekst-naar-beeld en tekst-naar-video generatie. Onze TED-6K dataset en evaluatiecode zijn beschikbaar op de volgende link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
English
The text encoder is a critical component of text-to-image and text-to-video diffusion models, fundamentally determining the semantic fidelity of the generated content. However, its development has been hindered by two major challenges: the lack of an efficient evaluation framework that reliably predicts downstream generation performance, and the difficulty of effectively adapting pretrained language models for visual synthesis. To address these issues, we introduce GRAN-TED, a paradigm to Generate Robust, Aligned, and Nuanced Text Embeddings for Diffusion models. Our contribution is twofold. First, we propose TED-6K, a novel text-only benchmark that enables efficient and robust assessment of an encoder's representational quality without requiring costly end-to-end model training. We demonstrate that performance on TED-6K, standardized via a lightweight, unified adapter, strongly correlates with an encoder's effectiveness in downstream generation tasks. Notably, under our experimental setup, compared with training a diffusion model from scratch, evaluating with TED-6K is about 750times faster. Second, guided by this validated framework, we develop a superior text encoder using a novel two-stage training paradigm. This process involves an initial fine-tuning stage on a Multimodal Large Language Model for better visual representation, followed by a layer-wise weighting method to extract more nuanced and potent text features. Our experiments show that the resulting GRAN-TED encoder not only achieves state-of-the-art performance on TED-6K but also leads to demonstrable performance gains in text-to-image and text-to-video generation. Our TED-6K dataset and evaluation code are available at the following link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
PDF211December 31, 2025