Cobra: Effiziente Linienzeichnungs-Kolorierung mit breiteren Referenzen
Cobra: Efficient Line Art COlorization with BRoAder References
April 16, 2025
Autoren: Junhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan
cs.AI
Zusammenfassung
Die Comic-Produktionsindustrie benötigt eine referenzbasierte Kolorierung von Strichzeichnungen mit hoher Genauigkeit, Effizienz, kontextueller Konsistenz und flexibler Steuerung. Eine Comic-Seite umfasst oft diverse Charaktere, Objekte und Hintergründe, was den Kolorierungsprozess verkompliziert. Trotz Fortschritten bei Diffusionsmodellen für die Bildgenerierung bleibt ihre Anwendung in der Strichzeichnungskolorierung begrenzt, da sie Herausforderungen im Umgang mit umfangreichen Referenzbildern, zeitaufwändiger Inferenz und flexibler Steuerung bewältigen müssen. Wir untersuchen die Notwendigkeit umfangreicher kontextueller Bildführung für die Qualität der Strichzeichnungskolorierung. Um diese Herausforderungen zu bewältigen, stellen wir Cobra vor, eine effiziente und vielseitige Methode, die Farbhinweise unterstützt und über 200 Referenzbilder nutzt, während sie eine geringe Latenz beibehält. Kern von Cobra ist eine Causal Sparse DiT-Architektur, die speziell entwickelte Positionskodierungen, kausale sparse Aufmerksamkeit und einen Key-Value Cache nutzt, um langfristige Kontextreferenzen effektiv zu verwalten und die Farbidentitätskonsistenz sicherzustellen. Die Ergebnisse zeigen, dass Cobra durch umfangreiche kontextuelle Referenzen eine präzise Strichzeichnungskolorierung erreicht, die Inferenzgeschwindigkeit und Interaktivität erheblich verbessert und damit kritische industrielle Anforderungen erfüllt. Wir veröffentlichen unsere Codes und Modelle auf unserer Projektseite: https://zhuang2002.github.io/Cobra/.
English
The comic production industry requires reference-based line art colorization
with high accuracy, efficiency, contextual consistency, and flexible control. A
comic page often involves diverse characters, objects, and backgrounds, which
complicates the coloring process. Despite advancements in diffusion models for
image generation, their application in line art colorization remains limited,
facing challenges related to handling extensive reference images,
time-consuming inference, and flexible control. We investigate the necessity of
extensive contextual image guidance on the quality of line art colorization. To
address these challenges, we introduce Cobra, an efficient and versatile method
that supports color hints and utilizes over 200 reference images while
maintaining low latency. Central to Cobra is a Causal Sparse DiT architecture,
which leverages specially designed positional encodings, causal sparse
attention, and Key-Value Cache to effectively manage long-context references
and ensure color identity consistency. Results demonstrate that Cobra achieves
accurate line art colorization through extensive contextual reference,
significantly enhancing inference speed and interactivity, thereby meeting
critical industrial demands. We release our codes and models on our project
page: https://zhuang2002.github.io/Cobra/.Summary
AI-Generated Summary