StrokeNUWA: Tokenizzazione dei tratti per la sintesi di grafica vettoriale

Abstract

Per sfruttare i modelli linguistici di grandi dimensioni (LLM) nella sintesi visiva, i metodi tradizionali convertono le informazioni delle immagini raster in token discreti su griglia attraverso moduli visivi specializzati, compromettendo però la capacità del modello di catturare la vera rappresentazione semantica delle scene visive. Questo articolo propone che una rappresentazione alternativa delle immagini, la grafica vettoriale, possa superare efficacemente questa limitazione, consentendo una segmentazione più naturale e semanticamente coerente delle informazioni visive. Introduciamo quindi StrokeNUWA, un lavoro pionieristico che esplora una migliore rappresentazione visiva, i "token di tratto" (stroke tokens), basata sulla grafica vettoriale, che è intrinsecamente ricca di semantica visiva, naturalmente compatibile con gli LLM e altamente compressa. Dotato di token di tratto, StrokeNUWA supera significativamente i metodi tradizionali basati su LLM e su ottimizzazione in varie metriche nel compito di generazione di grafica vettoriale. Inoltre, StrokeNUWA raggiunge un'accelerazione fino a 94x nell'inferenza rispetto ai metodi precedenti, con un eccezionale rapporto di compressione del codice SVG del 6,9%.

English

To leverage LLMs for visual synthesis, traditional methods convert raster image information into discrete grid tokens through specialized visual modules, while disrupting the model's ability to capture the true semantic representation of visual scenes. This paper posits that an alternative representation of images, vector graphics, can effectively surmount this limitation by enabling a more natural and semantically coherent segmentation of the image information. Thus, we introduce StrokeNUWA, a pioneering work exploring a better visual representation ''stroke tokens'' on vector graphics, which is inherently visual semantics rich, naturally compatible with LLMs, and highly compressed. Equipped with stroke tokens, StrokeNUWA can significantly surpass traditional LLM-based and optimization-based methods across various metrics in the vector graphic generation task. Besides, StrokeNUWA achieves up to a 94x speedup in inference over the speed of prior methods with an exceptional SVG code compression ratio of 6.9%.

StrokeNUWA: Tokenizzazione dei tratti per la sintesi di grafica vettoriale

StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis

Abstract

Support