Color Me Correctly : Relier les espaces de couleurs perceptuels et les embeddings de texte pour une génération par diffusion améliorée
Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
September 12, 2025
papers.authors: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
cs.AI
papers.abstract
L'alignement précis des couleurs dans la génération texte-image (T2I) est crucial pour des applications telles que la mode, la visualisation de produits et le design d'intérieur. Cependant, les modèles de diffusion actuels peinent à gérer les termes de couleur nuancés et composés (par exemple, bleu Tiffany, vert lime, rose vif), produisant souvent des images qui ne correspondent pas à l'intention humaine. Les approches existantes reposent sur la manipulation de l'attention croisée, des images de référence ou du réglage fin, mais elles échouent à résoudre systématiquement les descriptions de couleurs ambiguës. Pour restituer précisément les couleurs en cas d'ambiguïté dans les prompts, nous proposons un cadre sans apprentissage supplémentaire qui améliore la fidélité des couleurs en exploitant un modèle de langage de grande taille (LLM) pour désambiguïser les prompts liés aux couleurs et en guidant les opérations de mélange de couleurs directement dans l'espace d'incorporation de texte. Notre méthode utilise d'abord un LLM pour résoudre les termes de couleur ambigus dans le prompt texte, puis affine les incorporations de texte en fonction des relations spatiales des termes de couleur résultants dans l'espace colorimétrique CIELAB. Contrairement aux méthodes précédentes, notre approche améliore la précision des couleurs sans nécessiter d'apprentissage supplémentaire ni d'images de référence externes. Les résultats expérimentaux montrent que notre cadre améliore l'alignement des couleurs sans compromettre la qualité de l'image, comblant ainsi l'écart entre la sémantique du texte et la génération visuelle.
English
Accurate color alignment in text-to-image (T2I) generation is critical for
applications such as fashion, product visualization, and interior design, yet
current diffusion models struggle with nuanced and compound color terms (e.g.,
Tiffany blue, lime green, hot pink), often producing images that are misaligned
with human intent. Existing approaches rely on cross-attention manipulation,
reference images, or fine-tuning but fail to systematically resolve ambiguous
color descriptions. To precisely render colors under prompt ambiguity, we
propose a training-free framework that enhances color fidelity by leveraging a
large language model (LLM) to disambiguate color-related prompts and guiding
color blending operations directly in the text embedding space. Our method
first employs a large language model (LLM) to resolve ambiguous color terms in
the text prompt, and then refines the text embeddings based on the spatial
relationships of the resulting color terms in the CIELAB color space. Unlike
prior methods, our approach improves color accuracy without requiring
additional training or external reference images. Experimental results
demonstrate that our framework improves color alignment without compromising
image quality, bridging the gap between text semantics and visual generation.