GRAN-TED: 확산 모델을 위한 강건하고 정렬된 세밀한 텍스트 임베딩 생성
GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models
December 17, 2025
저자: Bozhou Li, Sihan Yang, Yushuo Guan, Ruichuan An, Xinlong Chen, Yang Shi, Pengfei Wan, Wentao Zhang, Yuanxing zhang
cs.AI
초록
텍스트 인코더는 텍스트-이미지 및 텍스트-비디오 확산 모델의 핵심 구성 요소로, 생성 콘텐츠의 의미론적 정확도를 근본적으로 결정합니다. 그러나 그 발전은 두 가지 주요 과제로 인해 지연되어 왔습니다: 하류 생성 성능을 신뢰성 있게 예측하는 효율적인 평가 체계의 부재, 그리고 시각적 합성을 위해 사전 학습된 언어 모델을 효과적으로 적용하는 어려움입니다. 이러한 문제를 해결하기 위해 우리는 확산 모델을 위한 강건하고 정렬된, 세밀한 텍스트 임베딩을 생성하는 패러다임인 GRAN-TED를 소개합니다. 우리의 기여는 두 가지입니다. 첫째, 값비싼 end-to-end 모델 학습 없이도 인코더의 표현 품질을 효율적이고 강건하게 평가할 수 있는 새로운 텍스트 전용 벤치마크인 TED-6K를 제안합니다. 우리는 경량의 통합 어댑터를 통해 표준화된 TED-6K의 성능이 하류 생성 작업에서 인코더의 효과성과 강한 상관 관계가 있음을 입증합니다. 주목할 점은, 우리의 실험 설정 하에서 확산 모델을 처음부터 학습하는 것과 비교하여 TED-6K로 평가하는 것이 약 750배 더 빠르다는 것입니다. 둘째, 이 검증된 체계의 지도를 받아 우리는 새로운 2단계 학습 패러다임을 사용하여 우수한 텍스트 인코더를 개발합니다. 이 과정은 더 나은 시각적 표현을 위해 멀티모달 대규모 언어 모델에 대한 초기 미세 조정 단계와, 더 세밀하고 강력한 텍스트 특징을 추출하기 위한 계층별 가중치 부여 방법으로 구성됩니다. 우리의 실험 결과, 최종적인 GRAN-TED 인코더는 TED-6K에서 최첨단 성능을 달성할 뿐만 아니라 텍스트-이미지 및 텍스트-비디오 생성에서도 뚜렷한 성능 향상을 이끌어냅니다. 우리의 TED-6K 데이터셋과 평가 코드는 다음 링크에서 이용 가능합니다: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
English
The text encoder is a critical component of text-to-image and text-to-video diffusion models, fundamentally determining the semantic fidelity of the generated content. However, its development has been hindered by two major challenges: the lack of an efficient evaluation framework that reliably predicts downstream generation performance, and the difficulty of effectively adapting pretrained language models for visual synthesis. To address these issues, we introduce GRAN-TED, a paradigm to Generate Robust, Aligned, and Nuanced Text Embeddings for Diffusion models. Our contribution is twofold. First, we propose TED-6K, a novel text-only benchmark that enables efficient and robust assessment of an encoder's representational quality without requiring costly end-to-end model training. We demonstrate that performance on TED-6K, standardized via a lightweight, unified adapter, strongly correlates with an encoder's effectiveness in downstream generation tasks. Notably, under our experimental setup, compared with training a diffusion model from scratch, evaluating with TED-6K is about 750times faster. Second, guided by this validated framework, we develop a superior text encoder using a novel two-stage training paradigm. This process involves an initial fine-tuning stage on a Multimodal Large Language Model for better visual representation, followed by a layer-wise weighting method to extract more nuanced and potent text features. Our experiments show that the resulting GRAN-TED encoder not only achieves state-of-the-art performance on TED-6K but also leads to demonstrable performance gains in text-to-image and text-to-video generation. Our TED-6K dataset and evaluation code are available at the following link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.