StrokeNUWA: Tokenizzazione dei tratti per la sintesi di grafica vettoriale
StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis
January 30, 2024
Autori: Zecheng Tang, Chenfei Wu, Zekai Zhang, Mingheng Ni, Shengming Yin, Yu Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan
cs.AI
Abstract
Per sfruttare i modelli linguistici di grandi dimensioni (LLM) nella sintesi visiva, i metodi tradizionali convertono le informazioni delle immagini raster in token discreti su griglia attraverso moduli visivi specializzati, compromettendo però la capacità del modello di catturare la vera rappresentazione semantica delle scene visive. Questo articolo propone che una rappresentazione alternativa delle immagini, la grafica vettoriale, possa superare efficacemente questa limitazione, consentendo una segmentazione più naturale e semanticamente coerente delle informazioni visive. Introduciamo quindi StrokeNUWA, un lavoro pionieristico che esplora una migliore rappresentazione visiva, i "token di tratto" (stroke tokens), basata sulla grafica vettoriale, che è intrinsecamente ricca di semantica visiva, naturalmente compatibile con gli LLM e altamente compressa. Dotato di token di tratto, StrokeNUWA supera significativamente i metodi tradizionali basati su LLM e su ottimizzazione in varie metriche nel compito di generazione di grafica vettoriale. Inoltre, StrokeNUWA raggiunge un'accelerazione fino a 94x nell'inferenza rispetto ai metodi precedenti, con un eccezionale rapporto di compressione del codice SVG del 6,9%.
English
To leverage LLMs for visual synthesis, traditional methods convert raster
image information into discrete grid tokens through specialized visual modules,
while disrupting the model's ability to capture the true semantic
representation of visual scenes. This paper posits that an alternative
representation of images, vector graphics, can effectively surmount this
limitation by enabling a more natural and semantically coherent segmentation of
the image information. Thus, we introduce StrokeNUWA, a pioneering work
exploring a better visual representation ''stroke tokens'' on vector graphics,
which is inherently visual semantics rich, naturally compatible with LLMs, and
highly compressed. Equipped with stroke tokens, StrokeNUWA can significantly
surpass traditional LLM-based and optimization-based methods across various
metrics in the vector graphic generation task. Besides, StrokeNUWA achieves up
to a 94x speedup in inference over the speed of prior methods with an
exceptional SVG code compression ratio of 6.9%.