Cobra: Colorización Eficiente de Arte Lineal con Referencias Más Amplias
Cobra: Efficient Line Art COlorization with BRoAder References
April 16, 2025
Autores: Junhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan
cs.AI
Resumen
La industria de producción de cómics requiere la colorización de arte lineal basada en referencias con alta precisión, eficiencia, consistencia contextual y control flexible. Una página de cómic a menudo involucra diversos personajes, objetos y fondos, lo que complica el proceso de colorización. A pesar de los avances en los modelos de difusión para la generación de imágenes, su aplicación en la colorización de arte lineal sigue siendo limitada, enfrentando desafíos relacionados con el manejo de extensas imágenes de referencia, inferencias que consumen mucho tiempo y control flexible. Investigamos la necesidad de una guía contextual extensa de imágenes sobre la calidad de la colorización de arte lineal. Para abordar estos desafíos, presentamos Cobra, un método eficiente y versátil que admite sugerencias de color y utiliza más de 200 imágenes de referencia mientras mantiene una baja latencia. El núcleo de Cobra es una arquitectura Causal Sparse DiT, que aprovecha codificaciones posicionales especialmente diseñadas, atención causal dispersa y Caché Clave-Valor para gestionar eficazmente referencias de contexto largo y garantizar la consistencia de la identidad del color. Los resultados demuestran que Cobra logra una colorización precisa del arte lineal a través de una extensa referencia contextual, mejorando significativamente la velocidad de inferencia y la interactividad, cumpliendo así con las demandas críticas de la industria. Publicamos nuestros códigos y modelos en nuestra página del proyecto: https://zhuang2002.github.io/Cobra/.
English
The comic production industry requires reference-based line art colorization
with high accuracy, efficiency, contextual consistency, and flexible control. A
comic page often involves diverse characters, objects, and backgrounds, which
complicates the coloring process. Despite advancements in diffusion models for
image generation, their application in line art colorization remains limited,
facing challenges related to handling extensive reference images,
time-consuming inference, and flexible control. We investigate the necessity of
extensive contextual image guidance on the quality of line art colorization. To
address these challenges, we introduce Cobra, an efficient and versatile method
that supports color hints and utilizes over 200 reference images while
maintaining low latency. Central to Cobra is a Causal Sparse DiT architecture,
which leverages specially designed positional encodings, causal sparse
attention, and Key-Value Cache to effectively manage long-context references
and ensure color identity consistency. Results demonstrate that Cobra achieves
accurate line art colorization through extensive contextual reference,
significantly enhancing inference speed and interactivity, thereby meeting
critical industrial demands. We release our codes and models on our project
page: https://zhuang2002.github.io/Cobra/.