Kleur Mij Correct: Het Overbruggen van Perceptuele Kleurruimtes en Tekstembeddingen voor Verbeterde Diffusiegeneratie
Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
September 12, 2025
Auteurs: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
cs.AI
Samenvatting
Nauwkeurige kleurafstemming in tekst-naar-beeld (T2I) generatie is cruciaal voor toepassingen zoals mode, productvisualisatie en interieurontwerp, maar huidige diffusiemodellen hebben moeite met genuanceerde en samengestelde kleurtermen (bijv. Tiffany blauw, limoengroen, felroze), wat vaak resulteert in afbeeldingen die niet overeenkomen met de menselijke intentie. Bestaande benaderingen vertrouwen op cross-attention manipulatie, referentiebeelden of fine-tuning, maar slagen er niet in om dubbelzinnige kleurbeschrijvingen systematisch op te lossen. Om kleuren nauwkeurig weer te geven bij prompt-dubbelzinnigheid, stellen we een trainingsvrij raamwerk voor dat de kleurtrouw verbetert door gebruik te maken van een groot taalmodel (LLM) om kleurgerelateerde prompts te verduidelijken en kleurmengingsoperaties direct in de tekstembeddingruimte te begeleiden. Onze methode gebruikt eerst een groot taalmodel (LLM) om dubbelzinnige kleurtermen in de tekstprompt op te lossen, en verfijnt vervolgens de tekstembeddings op basis van de ruimtelijke relaties van de resulterende kleurtermen in de CIELAB-kleurruimte. In tegenstelling tot eerdere methoden verbetert onze aanpak de kleurnauwkeurigheid zonder extra training of externe referentiebeelden nodig te hebben. Experimentele resultaten tonen aan dat ons raamwerk de kleurafstemming verbetert zonder de beeldkwaliteit aan te tasten, waardoor de kloof tussen tekstsemantiek en visuele generatie wordt overbrugd.
English
Accurate color alignment in text-to-image (T2I) generation is critical for
applications such as fashion, product visualization, and interior design, yet
current diffusion models struggle with nuanced and compound color terms (e.g.,
Tiffany blue, lime green, hot pink), often producing images that are misaligned
with human intent. Existing approaches rely on cross-attention manipulation,
reference images, or fine-tuning but fail to systematically resolve ambiguous
color descriptions. To precisely render colors under prompt ambiguity, we
propose a training-free framework that enhances color fidelity by leveraging a
large language model (LLM) to disambiguate color-related prompts and guiding
color blending operations directly in the text embedding space. Our method
first employs a large language model (LLM) to resolve ambiguous color terms in
the text prompt, and then refines the text embeddings based on the spatial
relationships of the resulting color terms in the CIELAB color space. Unlike
prior methods, our approach improves color accuracy without requiring
additional training or external reference images. Experimental results
demonstrate that our framework improves color alignment without compromising
image quality, bridging the gap between text semantics and visual generation.