StarVector: Generierung von skalierbaren Vektorgrafik-Codes aus Bildern
StarVector: Generating Scalable Vector Graphics Code from Images
December 17, 2023
Autoren: Juan A. Rodriguez, Shubham Agarwal, Issam H. Laradji, Pau Rodriguez, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI
Zusammenfassung
Scalable Vector Graphics (SVGs) sind in modernen Bilddarstellungsanwendungen unverzichtbar geworden, da sie eine unbegrenzte Skalierbarkeit in der Auflösung, vielseitige Nutzbarkeit und Bearbeitungsmöglichkeiten bieten. SVGs sind besonders in den Bereichen Webentwicklung und Grafikdesign beliebt. Bisherige Ansätze zur SVG-Modellierung mit Deep Learning haben oft Schwierigkeiten, komplexe SVGs zu generieren, und beschränken sich auf einfachere, die umfangreiche Verarbeitung und Vereinfachung erfordern. Dieses Paper stellt StarVector vor, ein multimodales SVG-Generierungsmodell, das Code-Generierungs-Large-Language-Models (CodeLLMs) und Vision-Modelle effektiv integriert. Unser Ansatz nutzt einen CLIP-Bildencoder, um visuelle Repräsentationen aus pixelbasierten Bildern zu extrahieren, die dann über ein Adaptermodul in visuelle Tokens umgewandelt werden. Diese visuellen Tokens werden den SVG-Token-Embeddings vorangestellt, und die Sequenz wird vom StarCoder-Modell durch Next-Token-Prediction modelliert, wodurch effektiv die Ausrichtung der visuellen und Code-Tokens gelernt wird. Dies ermöglicht es StarVector, uneingeschränkte SVGs zu generieren, die Pixelbilder präzise darstellen. Um die Leistung von StarVector zu bewerten, präsentieren wir SVG-Bench, einen umfassenden Benchmark zur Bewertung von SVG-Methoden über mehrere Datensätze und relevante Metriken hinweg. Innerhalb dieses Benchmarks führen wir neuartige Datensätze ein, darunter SVG-Stack, einen groß angelegten Datensatz mit realen SVG-Beispielen, und verwenden ihn, um StarVector als großes Foundation-Modell für SVGs vorzutrainieren. Unsere Ergebnisse zeigen signifikante Verbesserungen in der visuellen Qualität und der Handhabung von Komplexität gegenüber aktuellen Methoden und markieren einen bemerkenswerten Fortschritt in der SVG-Generierungstechnologie. Code und Modelle: https://github.com/joanrod/star-vector
English
Scalable Vector Graphics (SVGs) have become integral in modern image
rendering applications due to their infinite scalability in resolution,
versatile usability, and editing capabilities. SVGs are particularly popular in
the fields of web development and graphic design. Existing approaches for SVG
modeling using deep learning often struggle with generating complex SVGs and
are restricted to simpler ones that require extensive processing and
simplification. This paper introduces StarVector, a multimodal SVG generation
model that effectively integrates Code Generation Large Language Models
(CodeLLMs) and vision models. Our approach utilizes a CLIP image encoder to
extract visual representations from pixel-based images, which are then
transformed into visual tokens via an adapter module. These visual tokens are
pre-pended to the SVG token embeddings, and the sequence is modeled by the
StarCoder model using next-token prediction, effectively learning to align the
visual and code tokens. This enables StarVector to generate unrestricted SVGs
that accurately represent pixel images. To evaluate StarVector's performance,
we present SVG-Bench, a comprehensive benchmark for evaluating SVG methods
across multiple datasets and relevant metrics. Within this benchmark, we
introduce novel datasets including SVG-Stack, a large-scale dataset of
real-world SVG examples, and use it to pre-train StarVector as a large
foundation model for SVGs. Our results demonstrate significant enhancements in
visual quality and complexity handling over current methods, marking a notable
advancement in SVG generation technology. Code and models:
https://github.com/joanrod/star-vector