Programmazione Grafica Simbolica con Modelli Linguistici di Grande Dimensione
Symbolic Graphics Programming with Large Language Models
September 5, 2025
Autori: Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu
cs.AI
Abstract
I grandi modelli linguistici (LLM) eccellono nella sintesi di programmi, ma la loro capacità di produrre programmi grafici simbolici (SGP) che si traducono in contenuti visivi precisi rimane poco esplorata. Studiamo la programmazione grafica simbolica, in cui l'obiettivo è generare un SGP a partire da una descrizione in linguaggio naturale. Questo compito funge anche da lente per comprendere come i LLM interpretano il mondo visivo, spingendoli a generare immagini renderizzate da SGP. Tra i vari SGP, il nostro articolo si concentra sulla grafica vettoriale scalabile (SVG). Iniziamo esaminando fino a che punto i LLM possono generare SGP. A tal fine, introduciamo SGP-GenBench, un benchmark completo che copre fedeltà dell'oggetto, fedeltà della scena e composizionalità (associazione di attributi, relazioni spaziali, capacità numerica). Su SGP-GenBench, scopriamo che i modelli proprietari all'avanguardia superano significativamente i modelli open-source, e le prestazioni sono ben correlate con le capacità generali di codifica. Motivati da questo divario, miriamo a migliorare la capacità dei LLM di generare SGP. Proponiamo un approccio di apprendimento per rinforzo (RL) con ricompense verificabili, in cui un gate di validità del formato garantisce SVG renderizzabili, e una ricompensa cross-modale allinea il testo e l'immagine renderizzata tramite encoder visivi potenti (ad esempio, SigLIP per testo-immagine e DINO per immagine-immagine). Applicato a Qwen-2.5-7B, il nostro metodo migliora sostanzialmente la qualità e la semantica della generazione di SVG, raggiungendo prestazioni paragonabili ai sistemi all'avanguardia. Analizziamo ulteriormente le dinamiche di addestramento, dimostrando che l'RL induce (i) una scomposizione più fine degli oggetti in primitive controllabili e (ii) dettagli contestuali che migliorano la coerenza della scena. I nostri risultati dimostrano che la programmazione grafica simbolica offre una lente precisa e interpretabile sul grounding cross-modale.
English
Large language models (LLMs) excel at program synthesis, yet their ability to
produce symbolic graphics programs (SGPs) that render into precise visual
content remains underexplored. We study symbolic graphics programming, where
the goal is to generate an SGP from a natural-language description. This task
also serves as a lens into how LLMs understand the visual world by prompting
them to generate images rendered from SGPs. Among various SGPs, our paper
sticks to scalable vector graphics (SVGs). We begin by examining the extent to
which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a
comprehensive benchmark covering object fidelity, scene fidelity, and
compositionality (attribute binding, spatial relations, numeracy). On
SGP-GenBench, we discover that frontier proprietary models substantially
outperform open-source models, and performance correlates well with general
coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to
generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards
approach, where a format-validity gate ensures renderable SVG, and a
cross-modal reward aligns text and the rendered image via strong vision
encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to
Qwen-2.5-7B, our method substantially improves SVG generation quality and
semantics, achieving performance on par with frontier systems. We further
analyze training dynamics, showing that RL induces (i) finer decomposition of
objects into controllable primitives and (ii) contextual details that improve
scene coherence. Our results demonstrate that symbolic graphics programming
offers a precise and interpretable lens on cross-modal grounding.