ChatPaper.aiChatPaper

Color Me Correctly: Brückenschlag zwischen wahrnehmungsbasierten Farbraummodellen und Texteinbettungen für verbesserte Diffusionsgenerierung

Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation

September 12, 2025
papers.authors: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
cs.AI

papers.abstract

Eine präzise Farbausrichtung bei der Text-zu-Bild (T2I)-Generierung ist entscheidend für Anwendungen wie Mode, Produktvisualisierung und Innenarchitektur. Dennoch haben aktuelle Diffusionsmodelle Schwierigkeiten mit nuancierten und zusammengesetzten Farbbegriffen (z. B. Tiffany-Blau, Limettengrün, Knallrosa) und erzeugen oft Bilder, die nicht mit der menschlichen Absicht übereinstimmen. Bisherige Ansätze stützen sich auf die Manipulation von Cross-Attention, Referenzbilder oder Feinabstimmung, scheitern jedoch daran, mehrdeutige Farbbeschreibungen systematisch zu lösen. Um Farben bei mehrdeutigen Eingabeaufforderungen präzise darzustellen, schlagen wir ein trainingsfreies Framework vor, das die Farbtreue verbessert, indem ein großes Sprachmodell (LLM) zur Disambiguierung farbbezogener Eingabeaufforderungen genutzt wird und Farbmischungsoperationen direkt im Text-Einbettungsraum gesteuert werden. Unsere Methode verwendet zunächst ein großes Sprachmodell (LLM), um mehrdeutige Farbbegriffe im Textprompt aufzulösen, und verfeinert dann die Text-Einbettungen basierend auf den räumlichen Beziehungen der resultierenden Farbbegriffe im CIELAB-Farbraum. Im Gegensatz zu früheren Methoden verbessert unser Ansatz die Farbgenauigkeit, ohne zusätzliches Training oder externe Referenzbilder zu benötigen. Experimentelle Ergebnisse zeigen, dass unser Framework die Farbausrichtung verbessert, ohne die Bildqualität zu beeinträchtigen, und so die Lücke zwischen Textsemantik und visueller Generierung schließt.
English
Accurate color alignment in text-to-image (T2I) generation is critical for applications such as fashion, product visualization, and interior design, yet current diffusion models struggle with nuanced and compound color terms (e.g., Tiffany blue, lime green, hot pink), often producing images that are misaligned with human intent. Existing approaches rely on cross-attention manipulation, reference images, or fine-tuning but fail to systematically resolve ambiguous color descriptions. To precisely render colors under prompt ambiguity, we propose a training-free framework that enhances color fidelity by leveraging a large language model (LLM) to disambiguate color-related prompts and guiding color blending operations directly in the text embedding space. Our method first employs a large language model (LLM) to resolve ambiguous color terms in the text prompt, and then refines the text embeddings based on the spatial relationships of the resulting color terms in the CIELAB color space. Unlike prior methods, our approach improves color accuracy without requiring additional training or external reference images. Experimental results demonstrate that our framework improves color alignment without compromising image quality, bridging the gap between text semantics and visual generation.
PDF112September 15, 2025