StrokeNUWA: Tokenisierung von Strichen für die Vektorgrafiksynthese
StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis
January 30, 2024
Autoren: Zecheng Tang, Chenfei Wu, Zekai Zhang, Mingheng Ni, Shengming Yin, Yu Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan
cs.AI
Zusammenfassung
Um LLMs für die visuelle Synthese zu nutzen, wandeln traditionelle Methoden Rasterbildinformationen durch spezialisierte visuelle Module in diskrete Gittertokens um, wodurch jedoch die Fähigkeit des Modells beeinträchtigt wird, die wahre semantische Darstellung visueller Szenen zu erfassen. Dieses Papier stellt die These auf, dass eine alternative Darstellung von Bildern, nämlich Vektorgrafiken, diese Einschränkung effektiv überwinden kann, indem sie eine natürlichere und semantisch kohärentere Segmentierung der Bildinformationen ermöglicht. Daher stellen wir StrokeNUWA vor, eine wegweisende Arbeit, die eine bessere visuelle Darstellung in Form von „Stroke-Tokens“ auf Vektorgrafiken untersucht, die von Natur aus reich an visueller Semantik ist, natürlich mit LLMs kompatibel und stark komprimiert. Ausgestattet mit Stroke-Tokens kann StrokeNUWA traditionelle LLM-basierte und optimierungsbasierte Methoden bei verschiedenen Metriken in der Aufgabe der Vektorgrafikgenerierung deutlich übertreffen. Darüber hinaus erreicht StrokeNUWA eine bis zu 94-fache Beschleunigung der Inferenz im Vergleich zu früheren Methoden bei einem außergewöhnlichen SVG-Code-Kompressionsverhältnis von 6,9 %.
English
To leverage LLMs for visual synthesis, traditional methods convert raster
image information into discrete grid tokens through specialized visual modules,
while disrupting the model's ability to capture the true semantic
representation of visual scenes. This paper posits that an alternative
representation of images, vector graphics, can effectively surmount this
limitation by enabling a more natural and semantically coherent segmentation of
the image information. Thus, we introduce StrokeNUWA, a pioneering work
exploring a better visual representation ''stroke tokens'' on vector graphics,
which is inherently visual semantics rich, naturally compatible with LLMs, and
highly compressed. Equipped with stroke tokens, StrokeNUWA can significantly
surpass traditional LLM-based and optimization-based methods across various
metrics in the vector graphic generation task. Besides, StrokeNUWA achieves up
to a 94x speedup in inference over the speed of prior methods with an
exceptional SVG code compression ratio of 6.9%.