Training-Vrije Tekst-Gestuurde Kleurbewerking met Multi-Modale Diffusie Transformer
Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer
August 12, 2025
Auteurs: Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum
cs.AI
Samenvatting
Tekstgestuurde kleurbewerking in afbeeldingen en video's is een fundamenteel maar nog onopgelost probleem, dat een fijnmazige manipulatie van kleurattributen vereist, waaronder albedo, lichtbronkleur en omgevingsverlichting, terwijl fysieke consistentie in geometrie, materiaaleigenschappen en licht-materie-interacties behouden blijft. Bestaande trainingsvrije methoden bieden brede toepasbaarheid voor verschillende bewerkingstaken, maar hebben moeite met precieze kleurcontrole en introduceren vaak visuele inconsistentie in zowel bewerkte als niet-bewerkte gebieden. In dit werk presenteren we ColorCtrl, een trainingsvrije kleurbewerkingmethode die gebruikmaakt van de aandachtmechanismen van moderne Multi-Modale Diffusion Transformers (MM-DiT). Door structuur en kleur te ontwarren via gerichte manipulatie van aandachtkaarten en waardetokens, maakt onze methode nauwkeurige en consistente kleurbewerking mogelijk, samen met woordniveau-controle van attribuutintensiteit. Onze methode wijzigt alleen de beoogde gebieden die door de prompt worden gespecificeerd, en laat niet-gerelateerde gebieden ongemoeid. Uitgebreide experimenten op zowel SD3 als FLUX.1-dev tonen aan dat ColorCtrl bestaande trainingsvrije benaderingen overtreft en state-of-the-art prestaties bereikt in zowel bewerkingskwaliteit als consistentie. Bovendien overtreft onze methode sterke commerciële modellen zoals FLUX.1 Kontext Max en GPT-4o Image Generation wat betreft consistentie. Wanneer uitgebreid naar videomodellen zoals CogVideoX, vertoont onze aanpak grotere voordelen, met name in het behoud van temporele coherentie en bewerkingsstabiliteit. Ten slotte generaliseert onze methode ook naar instructiegebaseerde bewerkingsdiffusiemodellen zoals Step1X-Edit en FLUX.1 Kontext dev, wat verder haar veelzijdigheid aantoont.
English
Text-guided color editing in images and videos is a fundamental yet unsolved
problem, requiring fine-grained manipulation of color attributes, including
albedo, light source color, and ambient lighting, while preserving physical
consistency in geometry, material properties, and light-matter interactions.
Existing training-free methods offer broad applicability across editing tasks
but struggle with precise color control and often introduce visual
inconsistency in both edited and non-edited regions. In this work, we present
ColorCtrl, a training-free color editing method that leverages the attention
mechanisms of modern Multi-Modal Diffusion Transformers (MM-DiT). By
disentangling structure and color through targeted manipulation of attention
maps and value tokens, our method enables accurate and consistent color
editing, along with word-level control of attribute intensity. Our method
modifies only the intended regions specified by the prompt, leaving unrelated
areas untouched. Extensive experiments on both SD3 and FLUX.1-dev demonstrate
that ColorCtrl outperforms existing training-free approaches and achieves
state-of-the-art performances in both edit quality and consistency.
Furthermore, our method surpasses strong commercial models such as FLUX.1
Kontext Max and GPT-4o Image Generation in terms of consistency. When extended
to video models like CogVideoX, our approach exhibits greater advantages,
particularly in maintaining temporal coherence and editing stability. Finally,
our method also generalizes to instruction-based editing diffusion models such
as Step1X-Edit and FLUX.1 Kontext dev, further demonstrating its versatility.