Cobra: Colorização Eficiente de Arte Linear com Referências Mais Amplas
Cobra: Efficient Line Art COlorization with BRoAder References
April 16, 2025
Autores: Junhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan
cs.AI
Resumo
A indústria de produção de quadrinhos exige colorização de arte-final baseada em referências com alta precisão, eficiência, consistência contextual e controle flexível. Uma página de quadrinhos frequentemente envolve diversos personagens, objetos e cenários, o que complica o processo de colorização. Apesar dos avanços nos modelos de difusão para geração de imagens, sua aplicação na colorização de arte-final ainda é limitada, enfrentando desafios relacionados ao tratamento de extensas imagens de referência, inferência demorada e controle flexível. Investigamos a necessidade de orientação contextual extensa de imagens na qualidade da colorização de arte-final. Para abordar esses desafios, introduzimos o Cobra, um método eficiente e versátil que suporta dicas de cores e utiliza mais de 200 imagens de referência, mantendo baixa latência. O cerne do Cobra é uma arquitetura Causal Sparse DiT, que aproveita codificações posicionais especialmente projetadas, atenção esparsa causal e Cache de Chave-Valor para gerenciar efetivamente referências de contexto longo e garantir consistência na identidade das cores. Os resultados demonstram que o Cobra alcança colorização precisa de arte-final por meio de referência contextual extensa, aumentando significativamente a velocidade de inferência e a interatividade, atendendo assim às demandas críticas da indústria. Disponibilizamos nossos códigos e modelos na página do projeto: https://zhuang2002.github.io/Cobra/.
English
The comic production industry requires reference-based line art colorization
with high accuracy, efficiency, contextual consistency, and flexible control. A
comic page often involves diverse characters, objects, and backgrounds, which
complicates the coloring process. Despite advancements in diffusion models for
image generation, their application in line art colorization remains limited,
facing challenges related to handling extensive reference images,
time-consuming inference, and flexible control. We investigate the necessity of
extensive contextual image guidance on the quality of line art colorization. To
address these challenges, we introduce Cobra, an efficient and versatile method
that supports color hints and utilizes over 200 reference images while
maintaining low latency. Central to Cobra is a Causal Sparse DiT architecture,
which leverages specially designed positional encodings, causal sparse
attention, and Key-Value Cache to effectively manage long-context references
and ensure color identity consistency. Results demonstrate that Cobra achieves
accurate line art colorization through extensive contextual reference,
significantly enhancing inference speed and interactivity, thereby meeting
critical industrial demands. We release our codes and models on our project
page: https://zhuang2002.github.io/Cobra/.