ChatPaper.aiChatPaper

"Раскрась меня правильно: объединение перцептивных цветовых пространств и текстовых вложений для улучшения генерации диффузионных моделей"

Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation

September 12, 2025
Авторы: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
cs.AI

Аннотация

Точное соответствие цветов в генерации изображений на основе текста (Text-to-Image, T2I) имеет критическое значение для таких приложений, как мода, визуализация продуктов и дизайн интерьеров. Однако современные диффузионные модели испытывают трудности с обработкой сложных и составных цветовых терминов (например, Tiffany blue, лаймовый зеленый, ярко-розовый), часто создавая изображения, которые не соответствуют замыслу человека. Существующие подходы полагаются на манипуляции с кросс-вниманием, использование эталонных изображений или тонкую настройку, но не позволяют систематически устранять неоднозначности в описании цветов. Для точного воспроизведения цветов в условиях неоднозначности запросов мы предлагаем метод, не требующий обучения, который повышает точность цветопередачи за счет использования большой языковой модели (LLM) для устранения неоднозначностей в цветовых запросах и управления операциями смешивания цветов непосредственно в пространстве текстовых эмбеддингов. Наш метод сначала использует большую языковую модель (LLM) для уточнения неоднозначных цветовых терминов в текстовом запросе, а затем уточняет текстовые эмбеддинги на основе пространственных отношений полученных цветовых терминов в цветовом пространстве CIELAB. В отличие от предыдущих методов, наш подход повышает точность цветопередачи без необходимости дополнительного обучения или использования внешних эталонных изображений. Экспериментальные результаты показывают, что наш метод улучшает соответствие цветов без ущерба для качества изображений, сокращая разрыв между семантикой текста и визуальной генерацией.
English
Accurate color alignment in text-to-image (T2I) generation is critical for applications such as fashion, product visualization, and interior design, yet current diffusion models struggle with nuanced and compound color terms (e.g., Tiffany blue, lime green, hot pink), often producing images that are misaligned with human intent. Existing approaches rely on cross-attention manipulation, reference images, or fine-tuning but fail to systematically resolve ambiguous color descriptions. To precisely render colors under prompt ambiguity, we propose a training-free framework that enhances color fidelity by leveraging a large language model (LLM) to disambiguate color-related prompts and guiding color blending operations directly in the text embedding space. Our method first employs a large language model (LLM) to resolve ambiguous color terms in the text prompt, and then refines the text embeddings based on the spatial relationships of the resulting color terms in the CIELAB color space. Unlike prior methods, our approach improves color accuracy without requiring additional training or external reference images. Experimental results demonstrate that our framework improves color alignment without compromising image quality, bridging the gap between text semantics and visual generation.
PDF112September 15, 2025