ChatPaper.aiChatPaper

정확한 색상 표현: 향상된 디퓨전 생성을 위한 지각 색상 공간과 텍스트 임베딩의 융합

Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation

September 12, 2025
저자: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
cs.AI

초록

텍스트-이미지(T2I) 생성에서 정확한 색상 정렬은 패션, 제품 시각화, 인테리어 디자인과 같은 응용 분야에서 매우 중요하지만, 현재의 확산 모델은 미묘하고 복합적인 색상 용어(예: 티파니 블루, 라임 그린, 핫 핑크)를 처리하는 데 어려움을 겪으며, 종종 인간의 의도와 일치하지 않는 이미지를 생성합니다. 기존의 접근 방식은 교차 주의 조작, 참조 이미지, 또는 미세 조정에 의존하지만, 모호한 색상 설명을 체계적으로 해결하지 못합니다. 프롬프트 모호성 하에서 색상을 정확하게 렌더링하기 위해, 우리는 대규모 언어 모델(LLM)을 활용하여 색상 관련 프롬프트의 모호성을 해소하고, 텍스트 임베딩 공간에서 직접 색상 혼합 작업을 안내함으로써 색상 충실도를 향상시키는 학습이 필요 없는 프레임워크를 제안합니다. 우리의 방법은 먼저 대규모 언어 모델(LLM)을 사용하여 텍스트 프롬프트의 모호한 색상 용어를 해결한 다음, CIELAB 색상 공간에서 결과 색상 용어의 공간적 관계를 기반으로 텍스트 임베딩을 개선합니다. 기존 방법과 달리, 우리의 접근 방식은 추가 학습이나 외부 참조 이미지 없이도 색상 정확도를 향상시킵니다. 실험 결과는 우리의 프레임워크가 이미지 품질을 저하시키지 않으면서 색상 정렬을 개선하여 텍스트 의미론과 시각적 생성 간의 격차를 줄이는 것을 보여줍니다.
English
Accurate color alignment in text-to-image (T2I) generation is critical for applications such as fashion, product visualization, and interior design, yet current diffusion models struggle with nuanced and compound color terms (e.g., Tiffany blue, lime green, hot pink), often producing images that are misaligned with human intent. Existing approaches rely on cross-attention manipulation, reference images, or fine-tuning but fail to systematically resolve ambiguous color descriptions. To precisely render colors under prompt ambiguity, we propose a training-free framework that enhances color fidelity by leveraging a large language model (LLM) to disambiguate color-related prompts and guiding color blending operations directly in the text embedding space. Our method first employs a large language model (LLM) to resolve ambiguous color terms in the text prompt, and then refines the text embeddings based on the spatial relationships of the resulting color terms in the CIELAB color space. Unlike prior methods, our approach improves color accuracy without requiring additional training or external reference images. Experimental results demonstrate that our framework improves color alignment without compromising image quality, bridging the gap between text semantics and visual generation.
PDF112September 15, 2025