ChatPaper.aiChatPaper

Edición de color guiada por texto sin entrenamiento con Transformador de Difusión Multi-Modal

Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

August 12, 2025
Autores: Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum
cs.AI

Resumen

La edición de color guiada por texto en imágenes y videos es un problema fundamental pero aún no resuelto, que requiere una manipulación precisa de atributos de color, como el albedo, el color de la fuente de luz y la iluminación ambiental, mientras se preserva la consistencia física en la geometría, las propiedades de los materiales y las interacciones luz-materia. Los métodos existentes que no requieren entrenamiento ofrecen una amplia aplicabilidad en tareas de edición, pero tienen dificultades para controlar el color con precisión y a menudo introducen inconsistencias visuales tanto en las regiones editadas como en las no editadas. En este trabajo, presentamos ColorCtrl, un método de edición de color que no requiere entrenamiento y que aprovecha los mecanismos de atención de los Transformers de Difusión Multi-Modal (MM-DiT) modernos. Al separar la estructura y el color mediante la manipulación dirigida de mapas de atención y tokens de valor, nuestro método permite una edición de color precisa y consistente, junto con un control a nivel de palabra de la intensidad de los atributos. Nuestro método modifica solo las regiones especificadas por el prompt, dejando intactas las áreas no relacionadas. Experimentos extensivos tanto en SD3 como en FLUX.1-dev demuestran que ColorCtrl supera a los enfoques existentes que no requieren entrenamiento y logra un rendimiento de vanguardia tanto en calidad de edición como en consistencia. Además, nuestro método supera a modelos comerciales fuertes como FLUX.1 Kontext Max y GPT-4o Image Generation en términos de consistencia. Cuando se extiende a modelos de video como CogVideoX, nuestro enfoque muestra mayores ventajas, particularmente en el mantenimiento de la coherencia temporal y la estabilidad de la edición. Finalmente, nuestro método también se generaliza a modelos de difusión de edición basados en instrucciones como Step1X-Edit y FLUX.1 Kontext dev, lo que demuestra aún más su versatilidad.
English
Text-guided color editing in images and videos is a fundamental yet unsolved problem, requiring fine-grained manipulation of color attributes, including albedo, light source color, and ambient lighting, while preserving physical consistency in geometry, material properties, and light-matter interactions. Existing training-free methods offer broad applicability across editing tasks but struggle with precise color control and often introduce visual inconsistency in both edited and non-edited regions. In this work, we present ColorCtrl, a training-free color editing method that leverages the attention mechanisms of modern Multi-Modal Diffusion Transformers (MM-DiT). By disentangling structure and color through targeted manipulation of attention maps and value tokens, our method enables accurate and consistent color editing, along with word-level control of attribute intensity. Our method modifies only the intended regions specified by the prompt, leaving unrelated areas untouched. Extensive experiments on both SD3 and FLUX.1-dev demonstrate that ColorCtrl outperforms existing training-free approaches and achieves state-of-the-art performances in both edit quality and consistency. Furthermore, our method surpasses strong commercial models such as FLUX.1 Kontext Max and GPT-4o Image Generation in terms of consistency. When extended to video models like CogVideoX, our approach exhibits greater advantages, particularly in maintaining temporal coherence and editing stability. Finally, our method also generalizes to instruction-based editing diffusion models such as Step1X-Edit and FLUX.1 Kontext dev, further demonstrating its versatility.
PDF91August 20, 2025