ChatPaper.aiChatPaper

StrokeNUWA : Tokenisation des traits pour la synthèse de graphiques vectoriels

StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis

January 30, 2024
Auteurs: Zecheng Tang, Chenfei Wu, Zekai Zhang, Mingheng Ni, Shengming Yin, Yu Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan
cs.AI

Résumé

Pour exploiter les LLM dans la synthèse visuelle, les méthodes traditionnelles convertissent les informations d'images matricielles en tokens de grille discrets via des modules visuels spécialisés, tout en compromettant la capacité du modèle à capturer la véritable représentation sémantique des scènes visuelles. Cet article propose qu'une représentation alternative des images, les graphiques vectoriels, peut surmonter efficacement cette limitation en permettant une segmentation plus naturelle et sémantiquement cohérente des informations de l'image. Ainsi, nous présentons StrokeNUWA, un travail pionnier explorant une meilleure représentation visuelle appelée « stroke tokens » sur des graphiques vectoriels, intrinsèquement riches en sémantique visuelle, naturellement compatibles avec les LLM et hautement compressés. Doté de stroke tokens, StrokeNUWA surpasse significativement les méthodes traditionnelles basées sur les LLM et sur l'optimisation selon diverses métriques dans la tâche de génération de graphiques vectoriels. De plus, StrokeNUWA atteint une accélération de l'inférence jusqu'à 94 fois par rapport aux méthodes antérieures, avec un taux de compression exceptionnel du code SVG de 6,9 %.
English
To leverage LLMs for visual synthesis, traditional methods convert raster image information into discrete grid tokens through specialized visual modules, while disrupting the model's ability to capture the true semantic representation of visual scenes. This paper posits that an alternative representation of images, vector graphics, can effectively surmount this limitation by enabling a more natural and semantically coherent segmentation of the image information. Thus, we introduce StrokeNUWA, a pioneering work exploring a better visual representation ''stroke tokens'' on vector graphics, which is inherently visual semantics rich, naturally compatible with LLMs, and highly compressed. Equipped with stroke tokens, StrokeNUWA can significantly surpass traditional LLM-based and optimization-based methods across various metrics in the vector graphic generation task. Besides, StrokeNUWA achieves up to a 94x speedup in inference over the speed of prior methods with an exceptional SVG code compression ratio of 6.9%.
PDF211December 15, 2024