Édition de couleurs guidée par texte sans apprentissage avec un transformateur de diffusion multi-modale
Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer
August 12, 2025
papers.authors: Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum
cs.AI
papers.abstract
L'édition de couleurs guidée par texte dans les images et les vidéos est un problème fondamental mais non résolu, nécessitant une manipulation fine des attributs de couleur, y compris l'albedo, la couleur de la source lumineuse et l'éclairage ambiant, tout en préservant la cohérence physique de la géométrie, des propriétés des matériaux et des interactions lumière-matière. Les méthodes existantes sans apprentissage offrent une applicabilité large à travers diverses tâches d'édition, mais peinent à contrôler précisément les couleurs et introduisent souvent des incohérences visuelles dans les régions éditées et non éditées. Dans ce travail, nous présentons ColorCtrl, une méthode d'édition de couleurs sans apprentissage qui exploite les mécanismes d'attention des Transformers de Diffusion Multi-Modale (MM-DiT) modernes. En séparant la structure et la couleur par une manipulation ciblée des cartes d'attention et des tokens de valeur, notre méthode permet une édition de couleurs précise et cohérente, ainsi qu'un contrôle au niveau des mots de l'intensité des attributs. Notre méthode modifie uniquement les régions spécifiées par l'invite, laissant les zones non concernées intactes. Des expériences approfondies sur SD3 et FLUX.1-dev démontrent que ColorCtrl surpasse les approches existantes sans apprentissage et atteint des performances de pointe en termes de qualité d'édition et de cohérence. De plus, notre méthode dépasse des modèles commerciaux robustes tels que FLUX.1 Kontext Max et GPT-4o Image Generation en termes de cohérence. Lorsqu'elle est étendue à des modèles vidéo comme CogVideoX, notre approche présente des avantages encore plus marqués, notamment dans le maintien de la cohérence temporelle et de la stabilité de l'édition. Enfin, notre méthode se généralise également à des modèles de diffusion d'édition basés sur des instructions comme Step1X-Edit et FLUX.1 Kontext dev, démontrant ainsi sa polyvalence.
English
Text-guided color editing in images and videos is a fundamental yet unsolved
problem, requiring fine-grained manipulation of color attributes, including
albedo, light source color, and ambient lighting, while preserving physical
consistency in geometry, material properties, and light-matter interactions.
Existing training-free methods offer broad applicability across editing tasks
but struggle with precise color control and often introduce visual
inconsistency in both edited and non-edited regions. In this work, we present
ColorCtrl, a training-free color editing method that leverages the attention
mechanisms of modern Multi-Modal Diffusion Transformers (MM-DiT). By
disentangling structure and color through targeted manipulation of attention
maps and value tokens, our method enables accurate and consistent color
editing, along with word-level control of attribute intensity. Our method
modifies only the intended regions specified by the prompt, leaving unrelated
areas untouched. Extensive experiments on both SD3 and FLUX.1-dev demonstrate
that ColorCtrl outperforms existing training-free approaches and achieves
state-of-the-art performances in both edit quality and consistency.
Furthermore, our method surpasses strong commercial models such as FLUX.1
Kontext Max and GPT-4o Image Generation in terms of consistency. When extended
to video models like CogVideoX, our approach exhibits greater advantages,
particularly in maintaining temporal coherence and editing stability. Finally,
our method also generalizes to instruction-based editing diffusion models such
as Step1X-Edit and FLUX.1 Kontext dev, further demonstrating its versatility.