GRAN-TED: Генерация устойчивых, согласованных и нюансированных текстовых эмбеддингов для диффузионных моделей
GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models
December 17, 2025
Авторы: Bozhou Li, Sihan Yang, Yushuo Guan, Ruichuan An, Xinlong Chen, Yang Shi, Pengfei Wan, Wentao Zhang, Yuanxing zhang
cs.AI
Аннотация
Текстовый кодировщик является ключевым компонентом диффузионных моделей для генерации изображений и видео по тексту, фундаментально определяя семантическую точность генерируемого контента. Однако его развитие сдерживается двумя основными проблемами: отсутствием эффективной системы оценки, достоверно предсказывающей результаты генерации, и сложностью адаптации предобученных языковых моделей для визуального синтеза. Для решения этих задач мы представляем GRAN-TED — парадигму генерации робастных, согласованных и нюансированных текстовых эмбеддингов для диффузионных моделей. Наш вклад двунаправлен. Во-первых, мы предлагаем TED-6K — новый текстовый бенчмарк, позволяющий проводить эффективную и надежную оценку репрезентационного качества кодировщика без затратного сквозного обучения моделей. Мы демонстрируем, что производительность на TED-6K, стандартизированная с помощью легковесного унифицированного адаптера, сильно коррелирует с эффективностью кодировщика в задачах генерации. Примечательно, что в нашей экспериментальной setup оценка с помощью TED-6K примерно в 750 раз быстрее, чем обучение диффузионной модели с нуля. Во-вторых, руководствуясь этой проверенной framework, мы разрабатываем усовершенствованный текстовый кодировщик с использованием новой двухэтапной парадигмы обучения. Этот процесс включает первоначальное тонкое обучение на мультимодальной большой языковой модели для улучшения визуальной репрезентации с последующим применением послойного взвешивания для извлечения более детализированных и эффективных текстовых признаков. Наши эксперименты показывают, что полученный кодировщик GRAN-TED не только достигает state-of-the-art результатов на TED-6K, но и обеспечивает значительный прирост производительности в генерации изображений и видео по тексту. Наши датасет TED-6K и код оценки доступны по ссылке: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
English
The text encoder is a critical component of text-to-image and text-to-video diffusion models, fundamentally determining the semantic fidelity of the generated content. However, its development has been hindered by two major challenges: the lack of an efficient evaluation framework that reliably predicts downstream generation performance, and the difficulty of effectively adapting pretrained language models for visual synthesis. To address these issues, we introduce GRAN-TED, a paradigm to Generate Robust, Aligned, and Nuanced Text Embeddings for Diffusion models. Our contribution is twofold. First, we propose TED-6K, a novel text-only benchmark that enables efficient and robust assessment of an encoder's representational quality without requiring costly end-to-end model training. We demonstrate that performance on TED-6K, standardized via a lightweight, unified adapter, strongly correlates with an encoder's effectiveness in downstream generation tasks. Notably, under our experimental setup, compared with training a diffusion model from scratch, evaluating with TED-6K is about 750times faster. Second, guided by this validated framework, we develop a superior text encoder using a novel two-stage training paradigm. This process involves an initial fine-tuning stage on a Multimodal Large Language Model for better visual representation, followed by a layer-wise weighting method to extract more nuanced and potent text features. Our experiments show that the resulting GRAN-TED encoder not only achieves state-of-the-art performance on TED-6K but also leads to demonstrable performance gains in text-to-image and text-to-video generation. Our TED-6K dataset and evaluation code are available at the following link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.