GRAN-TED: Geração de Representações de Texto Robustas, Alinhadas e Nuanceadas para Modelos de Difusão

Resumo

O codificador de texto é um componente crítico dos modelos de difusão texto-imagem e texto-vídeo, determinando fundamentalmente a fidelidade semântica do conteúdo gerado. No entanto, seu desenvolvimento tem sido dificultado por dois grandes desafios: a falta de uma estrutura de avaliação eficiente que preveja de forma confiável o desempenho de geração downstream e a dificuldade de adaptar efetivamente modelos de linguagem pré-treinados para síntese visual. Para resolver essas questões, apresentamos o GRAN-TED, um paradigma para Gerar *Embeddings* de Texto Robustos, Alinhados e Nuanceados para modelos de difusão. Nossa contribuição é dupla. Primeiro, propomos o TED-6K, um novo *benchmark* apenas de texto que permite uma avaliação eficiente e robusta da qualidade representacional de um codificador, sem exigir o custoso treinamento de modelos *end-to-end*. Demonstramos que o desempenho no TED-6K, padronizado por meio de um adaptador unificado e leve, correlaciona-se fortemente com a eficácia de um codificador em tarefas de geração downstream. Notavelmente, em nossa configuração experimental, em comparação com o treinamento de um modelo de difusão do zero, a avaliação com o TED-6K é cerca de 750 vezes mais rápida. Segundo, guiados por esta estrutura validada, desenvolvemos um codificador de texto superior usando um novo paradigma de treinamento em dois estágios. Este processo envolve uma etapa inicial de *fine-tuning* em um Modelo de Linguagem Multimodal de Grande Porte para melhor representação visual, seguida por um método de ponderação por camadas para extrair características de texto mais nuanceadas e potentes. Nossos experimentos mostram que o codificador GRAN-TED resultante não apenas alcança desempenho de ponta no TED-6K, mas também leva a ganhos de desempenho demonstráveis na geração texto-imagem e texto-vídeo. Nosso conjunto de dados TED-6K e código de avaliação estão disponíveis no seguinte link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.

English

The text encoder is a critical component of text-to-image and text-to-video diffusion models, fundamentally determining the semantic fidelity of the generated content. However, its development has been hindered by two major challenges: the lack of an efficient evaluation framework that reliably predicts downstream generation performance, and the difficulty of effectively adapting pretrained language models for visual synthesis. To address these issues, we introduce GRAN-TED, a paradigm to Generate Robust, Aligned, and Nuanced Text Embeddings for Diffusion models. Our contribution is twofold. First, we propose TED-6K, a novel text-only benchmark that enables efficient and robust assessment of an encoder's representational quality without requiring costly end-to-end model training. We demonstrate that performance on TED-6K, standardized via a lightweight, unified adapter, strongly correlates with an encoder's effectiveness in downstream generation tasks. Notably, under our experimental setup, compared with training a diffusion model from scratch, evaluating with TED-6K is about 750times faster. Second, guided by this validated framework, we develop a superior text encoder using a novel two-stage training paradigm. This process involves an initial fine-tuning stage on a Multimodal Large Language Model for better visual representation, followed by a layer-wise weighting method to extract more nuanced and potent text features. Our experiments show that the resulting GRAN-TED encoder not only achieves state-of-the-art performance on TED-6K but also leads to demonstrable performance gains in text-to-image and text-to-video generation. Our TED-6K dataset and evaluation code are available at the following link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.

GRAN-TED: Geração de Representações de Texto Robustas, Alinhadas e Nuanceadas para Modelos de Difusão

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

Resumo

Support