StarVector: Generierung von skalierbaren Vektorgrafik-Codes aus Bildern

papers.abstract

Scalable Vector Graphics (SVGs) sind in modernen Bilddarstellungsanwendungen unverzichtbar geworden, da sie eine unbegrenzte Skalierbarkeit in der Auflösung, vielseitige Nutzbarkeit und Bearbeitungsmöglichkeiten bieten. SVGs sind besonders in den Bereichen Webentwicklung und Grafikdesign beliebt. Bisherige Ansätze zur SVG-Modellierung mit Deep Learning haben oft Schwierigkeiten, komplexe SVGs zu generieren, und beschränken sich auf einfachere, die umfangreiche Verarbeitung und Vereinfachung erfordern. Dieses Paper stellt StarVector vor, ein multimodales SVG-Generierungsmodell, das Code-Generierungs-Large-Language-Models (CodeLLMs) und Vision-Modelle effektiv integriert. Unser Ansatz nutzt einen CLIP-Bildencoder, um visuelle Repräsentationen aus pixelbasierten Bildern zu extrahieren, die dann über ein Adaptermodul in visuelle Tokens umgewandelt werden. Diese visuellen Tokens werden den SVG-Token-Embeddings vorangestellt, und die Sequenz wird vom StarCoder-Modell durch Next-Token-Prediction modelliert, wodurch effektiv die Ausrichtung der visuellen und Code-Tokens gelernt wird. Dies ermöglicht es StarVector, uneingeschränkte SVGs zu generieren, die Pixelbilder präzise darstellen. Um die Leistung von StarVector zu bewerten, präsentieren wir SVG-Bench, einen umfassenden Benchmark zur Bewertung von SVG-Methoden über mehrere Datensätze und relevante Metriken hinweg. Innerhalb dieses Benchmarks führen wir neuartige Datensätze ein, darunter SVG-Stack, einen groß angelegten Datensatz mit realen SVG-Beispielen, und verwenden ihn, um StarVector als großes Foundation-Modell für SVGs vorzutrainieren. Unsere Ergebnisse zeigen signifikante Verbesserungen in der visuellen Qualität und der Handhabung von Komplexität gegenüber aktuellen Methoden und markieren einen bemerkenswerten Fortschritt in der SVG-Generierungstechnologie. Code und Modelle: https://github.com/joanrod/star-vector

English

Scalable Vector Graphics (SVGs) have become integral in modern image rendering applications due to their infinite scalability in resolution, versatile usability, and editing capabilities. SVGs are particularly popular in the fields of web development and graphic design. Existing approaches for SVG modeling using deep learning often struggle with generating complex SVGs and are restricted to simpler ones that require extensive processing and simplification. This paper introduces StarVector, a multimodal SVG generation model that effectively integrates Code Generation Large Language Models (CodeLLMs) and vision models. Our approach utilizes a CLIP image encoder to extract visual representations from pixel-based images, which are then transformed into visual tokens via an adapter module. These visual tokens are pre-pended to the SVG token embeddings, and the sequence is modeled by the StarCoder model using next-token prediction, effectively learning to align the visual and code tokens. This enables StarVector to generate unrestricted SVGs that accurately represent pixel images. To evaluate StarVector's performance, we present SVG-Bench, a comprehensive benchmark for evaluating SVG methods across multiple datasets and relevant metrics. Within this benchmark, we introduce novel datasets including SVG-Stack, a large-scale dataset of real-world SVG examples, and use it to pre-train StarVector as a large foundation model for SVGs. Our results demonstrate significant enhancements in visual quality and complexity handling over current methods, marking a notable advancement in SVG generation technology. Code and models: https://github.com/joanrod/star-vector

StarVector: Generierung von skalierbaren Vektorgrafik-Codes aus Bildern

StarVector: Generating Scalable Vector Graphics Code from Images

papers.abstract

Support