"Раскрась меня правильно: объединение перцептивных цветовых пространств и текстовых вложений для улучшения генерации диффузионных моделей"
Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
September 12, 2025
Авторы: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
cs.AI
Аннотация
Точное соответствие цветов в генерации изображений на основе текста (Text-to-Image, T2I) имеет критическое значение для таких приложений, как мода, визуализация продуктов и дизайн интерьеров. Однако современные диффузионные модели испытывают трудности с обработкой сложных и составных цветовых терминов (например, Tiffany blue, лаймовый зеленый, ярко-розовый), часто создавая изображения, которые не соответствуют замыслу человека. Существующие подходы полагаются на манипуляции с кросс-вниманием, использование эталонных изображений или тонкую настройку, но не позволяют систематически устранять неоднозначности в описании цветов. Для точного воспроизведения цветов в условиях неоднозначности запросов мы предлагаем метод, не требующий обучения, который повышает точность цветопередачи за счет использования большой языковой модели (LLM) для устранения неоднозначностей в цветовых запросах и управления операциями смешивания цветов непосредственно в пространстве текстовых эмбеддингов. Наш метод сначала использует большую языковую модель (LLM) для уточнения неоднозначных цветовых терминов в текстовом запросе, а затем уточняет текстовые эмбеддинги на основе пространственных отношений полученных цветовых терминов в цветовом пространстве CIELAB. В отличие от предыдущих методов, наш подход повышает точность цветопередачи без необходимости дополнительного обучения или использования внешних эталонных изображений. Экспериментальные результаты показывают, что наш метод улучшает соответствие цветов без ущерба для качества изображений, сокращая разрыв между семантикой текста и визуальной генерацией.
English
Accurate color alignment in text-to-image (T2I) generation is critical for
applications such as fashion, product visualization, and interior design, yet
current diffusion models struggle with nuanced and compound color terms (e.g.,
Tiffany blue, lime green, hot pink), often producing images that are misaligned
with human intent. Existing approaches rely on cross-attention manipulation,
reference images, or fine-tuning but fail to systematically resolve ambiguous
color descriptions. To precisely render colors under prompt ambiguity, we
propose a training-free framework that enhances color fidelity by leveraging a
large language model (LLM) to disambiguate color-related prompts and guiding
color blending operations directly in the text embedding space. Our method
first employs a large language model (LLM) to resolve ambiguous color terms in
the text prompt, and then refines the text embeddings based on the spatial
relationships of the resulting color terms in the CIELAB color space. Unlike
prior methods, our approach improves color accuracy without requiring
additional training or external reference images. Experimental results
demonstrate that our framework improves color alignment without compromising
image quality, bridging the gap between text semantics and visual generation.