Coloreame Correctamente: Uniendo Espacios de Color Perceptual y Representaciones de Texto para Mejorar la Generación con Difusión
Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
September 12, 2025
Autores: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
cs.AI
Resumen
La alineación precisa de colores en la generación de texto a imagen (T2I) es crucial para aplicaciones como la moda, la visualización de productos y el diseño de interiores. Sin embargo, los modelos de difusión actuales tienen dificultades con términos de color matizados y compuestos (por ejemplo, azul Tiffany, verde lima, rosa fucsia), produciendo a menudo imágenes que no se alinean con la intención humana. Los enfoques existentes dependen de la manipulación de atención cruzada, imágenes de referencia o ajustes finos, pero no logran resolver sistemáticamente las descripciones de color ambiguas. Para representar colores con precisión ante la ambigüedad en las indicaciones, proponemos un marco de trabajo que no requiere entrenamiento y que mejora la fidelidad del color al aprovechar un modelo de lenguaje grande (LLM) para desambiguar las indicaciones relacionadas con el color y guiar las operaciones de mezcla de colores directamente en el espacio de incrustaciones de texto. Nuestro método primero emplea un modelo de lenguaje grande (LLM) para resolver términos de color ambiguos en la indicación de texto, y luego refina las incrustaciones de texto basándose en las relaciones espaciales de los términos de color resultantes en el espacio de color CIELAB. A diferencia de métodos anteriores, nuestro enfoque mejora la precisión del color sin requerir entrenamiento adicional ni imágenes de referencia externas. Los resultados experimentales demuestran que nuestro marco de trabajo mejora la alineación de colores sin comprometer la calidad de la imagen, cerrando la brecha entre la semántica del texto y la generación visual.
English
Accurate color alignment in text-to-image (T2I) generation is critical for
applications such as fashion, product visualization, and interior design, yet
current diffusion models struggle with nuanced and compound color terms (e.g.,
Tiffany blue, lime green, hot pink), often producing images that are misaligned
with human intent. Existing approaches rely on cross-attention manipulation,
reference images, or fine-tuning but fail to systematically resolve ambiguous
color descriptions. To precisely render colors under prompt ambiguity, we
propose a training-free framework that enhances color fidelity by leveraging a
large language model (LLM) to disambiguate color-related prompts and guiding
color blending operations directly in the text embedding space. Our method
first employs a large language model (LLM) to resolve ambiguous color terms in
the text prompt, and then refines the text embeddings based on the spatial
relationships of the resulting color terms in the CIELAB color space. Unlike
prior methods, our approach improves color accuracy without requiring
additional training or external reference images. Experimental results
demonstrate that our framework improves color alignment without compromising
image quality, bridging the gap between text semantics and visual generation.