正しく色を付ける:拡散生成の向上のための知覚色空間とテキスト埋め込みの橋渡し
Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
September 12, 2025
著者: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
cs.AI
要旨
テキストから画像(T2I)生成における正確な色の整合性は、ファッション、製品ビジュアライゼーション、インテリアデザインなどのアプリケーションにおいて重要である。しかし、現在の拡散モデルは、微妙で複合的な色の表現(例:ティファニーブルー、ライムグリーン、ホットピンク)に苦戦しており、人間の意図とずれた画像を生成することが多い。既存のアプローチは、クロスアテンションの操作、参照画像、またはファインチューニングに依存しているが、曖昧な色の記述を体系的に解決することには至っていない。プロンプトの曖昧性の下で正確に色を表現するために、我々は、大規模言語モデル(LLM)を活用して色関連のプロンプトを明確化し、テキスト埋め込み空間内で直接色のブレンド操作を導くトレーニング不要のフレームワークを提案する。我々の手法では、まず大規模言語モデル(LLM)を使用してテキストプロンプト内の曖昧な色の表現を解決し、その後、CIELAB色空間における結果の色の空間的関係に基づいてテキスト埋め込みを洗練する。従来の手法とは異なり、我々のアプローチは、追加のトレーニングや外部の参照画像を必要とせずに色の正確性を向上させる。実験結果は、我々のフレームワークが画像品質を損なうことなく色の整合性を改善し、テキストの意味論と視覚的生成の間のギャップを埋めることを示している。
English
Accurate color alignment in text-to-image (T2I) generation is critical for
applications such as fashion, product visualization, and interior design, yet
current diffusion models struggle with nuanced and compound color terms (e.g.,
Tiffany blue, lime green, hot pink), often producing images that are misaligned
with human intent. Existing approaches rely on cross-attention manipulation,
reference images, or fine-tuning but fail to systematically resolve ambiguous
color descriptions. To precisely render colors under prompt ambiguity, we
propose a training-free framework that enhances color fidelity by leveraging a
large language model (LLM) to disambiguate color-related prompts and guiding
color blending operations directly in the text embedding space. Our method
first employs a large language model (LLM) to resolve ambiguous color terms in
the text prompt, and then refines the text embeddings based on the spatial
relationships of the resulting color terms in the CIELAB color space. Unlike
prior methods, our approach improves color accuracy without requiring
additional training or external reference images. Experimental results
demonstrate that our framework improves color alignment without compromising
image quality, bridging the gap between text semantics and visual generation.