ChatPaper.aiChatPaper

GRAN-TED: 拡散モデルのためのロバストで整合性のあるニュアンス豊かなテキスト埋め込みの生成

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

December 17, 2025
著者: Bozhou Li, Sihan Yang, Yushuo Guan, Ruichuan An, Xinlong Chen, Yang Shi, Pengfei Wan, Wentao Zhang, Yuanxing zhang
cs.AI

要旨

テキストエンコーダーは、テキストから画像/動画を生成する拡散モデルにおける重要な構成要素であり、生成コンテンツの意味的忠実度を根本的に決定する。しかし、その開発は二つの大きな課題によって阻まれてきた。一つは、下流の生成性能を確実に予測する効率的な評価フレームワークの欠如、もう一つは視覚的合成に適応させるための事前訓練済み言語モデルの効果的な適応の難しさである。これらの課題に対処するため、我々はGRAN-TEDを提案する。これは拡散モデルのための頑健で整合性が取れ、細やかなテキスト埋め込みを生成するパラダイムである。我々の貢献は二つある。第一に、TED-6Kという新しいテキストのみのベンチマークを提案する。これは、コストのかかるエンドツーエンドのモデル訓練を必要とせず、エンコーダーの表現品質を効率的かつ頑健に評価することを可能にする。軽量で統一されたアダプターを用いて標準化されたTED-6Kでの性能が、下流の生成タスクにおけるエンコーダーの有効性と強く相関することを実証する。特に、我々の実験設定では、拡散モデルをスクラッチから訓練する場合と比較して、TED-6Kによる評価は約750倍高速である。第二に、この検証済みのフレームワークに導かれ、新規の二段階訓練パラダイムを用いて優れたテキストエンコーダーを開発する。このプロセスは、より良い視覚的表現を得るためのマルチモーダル大規模言語モデルに対する初期の微調整段階と、より細やかで強力なテキスト特徴を抽出するための層別重み付け法を含む。実験結果は、得られたGRAN-TEDエンコーダーがTED-6Kで最先端の性能を達成するだけでなく、テキストから画像/動画への生成において顕著な性能向上をもたらすことを示している。TED-6Kデータセットと評価コードは以下のリンクで公開されている:https://anonymous.4open.science/r/GRAN-TED-4FCC/
English
The text encoder is a critical component of text-to-image and text-to-video diffusion models, fundamentally determining the semantic fidelity of the generated content. However, its development has been hindered by two major challenges: the lack of an efficient evaluation framework that reliably predicts downstream generation performance, and the difficulty of effectively adapting pretrained language models for visual synthesis. To address these issues, we introduce GRAN-TED, a paradigm to Generate Robust, Aligned, and Nuanced Text Embeddings for Diffusion models. Our contribution is twofold. First, we propose TED-6K, a novel text-only benchmark that enables efficient and robust assessment of an encoder's representational quality without requiring costly end-to-end model training. We demonstrate that performance on TED-6K, standardized via a lightweight, unified adapter, strongly correlates with an encoder's effectiveness in downstream generation tasks. Notably, under our experimental setup, compared with training a diffusion model from scratch, evaluating with TED-6K is about 750times faster. Second, guided by this validated framework, we develop a superior text encoder using a novel two-stage training paradigm. This process involves an initial fine-tuning stage on a Multimodal Large Language Model for better visual representation, followed by a layer-wise weighting method to extract more nuanced and potent text features. Our experiments show that the resulting GRAN-TED encoder not only achieves state-of-the-art performance on TED-6K but also leads to demonstrable performance gains in text-to-image and text-to-video generation. Our TED-6K dataset and evaluation code are available at the following link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
PDF211December 31, 2025