Symbolisch Grafisch Programmeren met Grote Taalmodellen

Samenvatting

Grote taalmodellen (LLMs) blinken uit in programma-synthese, maar hun vermogen om symbolische grafische programma's (SGPs) te produceren die precieze visuele inhoud weergeven, blijft onderbelicht. Wij bestuderen symbolische grafische programmering, waarbij het doel is om een SGP te genereren vanuit een beschrijving in natuurlijke taal. Deze taak dient ook als een lens om te begrijpen hoe LLMs de visuele wereld interpreteren, door hen aan te zetten tot het genereren van afbeeldingen die worden weergegeven vanuit SGPs. Onder de verschillende SGPs houdt ons paper zich bezig met schaalbare vectorafbeeldingen (SVGs). We beginnen met het onderzoeken van de mate waarin LLMs SGPs kunnen genereren. Hiertoe introduceren we SGP-GenBench, een uitgebreide benchmark die objectgetrouwheid, scènegetrouwheid en compositionaliteit (attribuutbinding, ruimtelijke relaties, numeriek vermogen) omvat. Op SGP-GenBench ontdekken we dat toonaangevende propriëtaire modellen open-source modellen aanzienlijk overtreffen, en dat de prestaties goed correleren met algemene programmeervaardigheden. Gemotiveerd door deze kloof, streven we ernaar om het vermogen van LLMs om SGPs te genereren te verbeteren. We stellen een aanpak voor met reinforcement learning (RL) en verifieerbare beloningen, waarbij een formaatvalidatiepoort renderbare SVG's garandeert, en een cross-modale beloning tekst en de gerenderde afbeelding uitlijnt via sterke visuele encoders (bijvoorbeeld SigLIP voor tekst-afbeelding en DINO voor afbeelding-afbeelding). Toegepast op Qwen-2.5-7B, verbetert onze methode de kwaliteit en semantiek van SVG-generatie aanzienlijk, waardoor prestaties worden bereikt die vergelijkbaar zijn met toonaangevende systemen. We analyseren verder de trainingsdynamiek, waarbij we aantonen dat RL (i) een fijnere decompositie van objecten in beheersbare primitieven induceert en (ii) contextuele details die de scènecoherentie verbeteren. Onze resultaten tonen aan dat symbolische grafische programmering een precieze en interpreteerbare lens biedt op cross-modale gronding.

English

Large language models (LLMs) excel at program synthesis, yet their ability to produce symbolic graphics programs (SGPs) that render into precise visual content remains underexplored. We study symbolic graphics programming, where the goal is to generate an SGP from a natural-language description. This task also serves as a lens into how LLMs understand the visual world by prompting them to generate images rendered from SGPs. Among various SGPs, our paper sticks to scalable vector graphics (SVGs). We begin by examining the extent to which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a comprehensive benchmark covering object fidelity, scene fidelity, and compositionality (attribute binding, spatial relations, numeracy). On SGP-GenBench, we discover that frontier proprietary models substantially outperform open-source models, and performance correlates well with general coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards approach, where a format-validity gate ensures renderable SVG, and a cross-modal reward aligns text and the rendered image via strong vision encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to Qwen-2.5-7B, our method substantially improves SVG generation quality and semantics, achieving performance on par with frontier systems. We further analyze training dynamics, showing that RL induces (i) finer decomposition of objects into controllable primitives and (ii) contextual details that improve scene coherence. Our results demonstrate that symbolic graphics programming offers a precise and interpretable lens on cross-modal grounding.

Symbolisch Grafisch Programmeren met Grote Taalmodellen

Symbolic Graphics Programming with Large Language Models

Samenvatting

Support