ChatPaper.aiChatPaper

Modifica del Colore Guidata da Testo senza Addestramento con Trasformatore a Diffusione Multi-Modale

Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

August 12, 2025
Autori: Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum
cs.AI

Abstract

La modifica guidata da testo dei colori in immagini e video è un problema fondamentale ma ancora irrisolto, che richiede una manipolazione fine degli attributi di colore, inclusi albedo, colore della sorgente luminosa e illuminazione ambientale, preservando al contempo la coerenza fisica nella geometria, nelle proprietà dei materiali e nelle interazioni luce-materia. I metodi esistenti che non richiedono addestramento offrono un'ampia applicabilità in vari compiti di modifica, ma faticano a ottenere un controllo preciso dei colori e spesso introducono incoerenze visive sia nelle regioni modificate che in quelle non modificate. In questo lavoro, presentiamo ColorCtrl, un metodo di modifica dei colori che non richiede addestramento e sfrutta i meccanismi di attenzione dei moderni Multi-Modal Diffusion Transformers (MM-DiT). Disaccoppiando struttura e colore attraverso una manipolazione mirata delle mappe di attenzione e dei token di valore, il nostro metodo consente una modifica accurata e coerente dei colori, insieme a un controllo a livello di parola dell'intensità degli attributi. Il nostro metodo modifica solo le regioni specificate dal prompt, lasciando inalterate le aree non interessate. Esperimenti estensivi su SD3 e FLUX.1-dev dimostrano che ColorCtrl supera gli approcci esistenti che non richiedono addestramento e raggiunge prestazioni all'avanguardia sia nella qualità che nella coerenza delle modifiche. Inoltre, il nostro metodo supera modelli commerciali robusti come FLUX.1 Kontext Max e GPT-4o Image Generation in termini di coerenza. Quando esteso a modelli video come CogVideoX, il nostro approccio mostra vantaggi ancora maggiori, in particolare nel mantenere la coerenza temporale e la stabilità delle modifiche. Infine, il nostro metodo si generalizza anche a modelli di diffusione basati su istruzioni come Step1X-Edit e FLUX.1 Kontext dev, dimostrando ulteriormente la sua versatilità.
English
Text-guided color editing in images and videos is a fundamental yet unsolved problem, requiring fine-grained manipulation of color attributes, including albedo, light source color, and ambient lighting, while preserving physical consistency in geometry, material properties, and light-matter interactions. Existing training-free methods offer broad applicability across editing tasks but struggle with precise color control and often introduce visual inconsistency in both edited and non-edited regions. In this work, we present ColorCtrl, a training-free color editing method that leverages the attention mechanisms of modern Multi-Modal Diffusion Transformers (MM-DiT). By disentangling structure and color through targeted manipulation of attention maps and value tokens, our method enables accurate and consistent color editing, along with word-level control of attribute intensity. Our method modifies only the intended regions specified by the prompt, leaving unrelated areas untouched. Extensive experiments on both SD3 and FLUX.1-dev demonstrate that ColorCtrl outperforms existing training-free approaches and achieves state-of-the-art performances in both edit quality and consistency. Furthermore, our method surpasses strong commercial models such as FLUX.1 Kontext Max and GPT-4o Image Generation in terms of consistency. When extended to video models like CogVideoX, our approach exhibits greater advantages, particularly in maintaining temporal coherence and editing stability. Finally, our method also generalizes to instruction-based editing diffusion models such as Step1X-Edit and FLUX.1 Kontext dev, further demonstrating its versatility.
PDF162August 20, 2025