Colorindo Corretamente: Conectando Espaços de Cores Perceptuais e Incorporações de Texto para Geração Aprimorada de Difusão
Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
September 12, 2025
Autores: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
cs.AI
Resumo
O alinhamento preciso de cores na geração de texto para imagem (T2I) é crucial para aplicações como moda, visualização de produtos e design de interiores, mas os modelos de difusão atuais enfrentam dificuldades com termos de cores sutis e compostos (por exemplo, azul Tiffany, verde-limão, rosa-choque), frequentemente produzindo imagens que não correspondem à intenção humana. As abordagens existentes dependem de manipulação de atenção cruzada, imagens de referência ou ajuste fino, mas falham em resolver sistematicamente descrições de cores ambíguas. Para renderizar cores com precisão diante da ambiguidade do prompt, propomos uma estrutura livre de treinamento que melhora a fidelidade das cores ao aproveitar um modelo de linguagem de grande escala (LLM) para desambiguar prompts relacionados a cores e guiar operações de mistura de cores diretamente no espaço de incorporação de texto. Nosso método primeiro emprega um LLM para resolver termos de cores ambíguos no prompt de texto e, em seguida, refina as incorporações de texto com base nas relações espaciais dos termos de cores resultantes no espaço de cores CIELAB. Diferente de métodos anteriores, nossa abordagem melhora a precisão das cores sem exigir treinamento adicional ou imagens de referência externas. Resultados experimentais demonstram que nossa estrutura melhora o alinhamento de cores sem comprometer a qualidade da imagem, reduzindo a lacuna entre a semântica do texto e a geração visual.
English
Accurate color alignment in text-to-image (T2I) generation is critical for
applications such as fashion, product visualization, and interior design, yet
current diffusion models struggle with nuanced and compound color terms (e.g.,
Tiffany blue, lime green, hot pink), often producing images that are misaligned
with human intent. Existing approaches rely on cross-attention manipulation,
reference images, or fine-tuning but fail to systematically resolve ambiguous
color descriptions. To precisely render colors under prompt ambiguity, we
propose a training-free framework that enhances color fidelity by leveraging a
large language model (LLM) to disambiguate color-related prompts and guiding
color blending operations directly in the text embedding space. Our method
first employs a large language model (LLM) to resolve ambiguous color terms in
the text prompt, and then refines the text embeddings based on the spatial
relationships of the resulting color terms in the CIELAB color space. Unlike
prior methods, our approach improves color accuracy without requiring
additional training or external reference images. Experimental results
demonstrate that our framework improves color alignment without compromising
image quality, bridging the gap between text semantics and visual generation.