Programmazione Grafica Simbolica con Modelli Linguistici di Grande Dimensione

Abstract

I grandi modelli linguistici (LLM) eccellono nella sintesi di programmi, ma la loro capacità di produrre programmi grafici simbolici (SGP) che si traducono in contenuti visivi precisi rimane poco esplorata. Studiamo la programmazione grafica simbolica, in cui l'obiettivo è generare un SGP a partire da una descrizione in linguaggio naturale. Questo compito funge anche da lente per comprendere come i LLM interpretano il mondo visivo, spingendoli a generare immagini renderizzate da SGP. Tra i vari SGP, il nostro articolo si concentra sulla grafica vettoriale scalabile (SVG). Iniziamo esaminando fino a che punto i LLM possono generare SGP. A tal fine, introduciamo SGP-GenBench, un benchmark completo che copre fedeltà dell'oggetto, fedeltà della scena e composizionalità (associazione di attributi, relazioni spaziali, capacità numerica). Su SGP-GenBench, scopriamo che i modelli proprietari all'avanguardia superano significativamente i modelli open-source, e le prestazioni sono ben correlate con le capacità generali di codifica. Motivati da questo divario, miriamo a migliorare la capacità dei LLM di generare SGP. Proponiamo un approccio di apprendimento per rinforzo (RL) con ricompense verificabili, in cui un gate di validità del formato garantisce SVG renderizzabili, e una ricompensa cross-modale allinea il testo e l'immagine renderizzata tramite encoder visivi potenti (ad esempio, SigLIP per testo-immagine e DINO per immagine-immagine). Applicato a Qwen-2.5-7B, il nostro metodo migliora sostanzialmente la qualità e la semantica della generazione di SVG, raggiungendo prestazioni paragonabili ai sistemi all'avanguardia. Analizziamo ulteriormente le dinamiche di addestramento, dimostrando che l'RL induce (i) una scomposizione più fine degli oggetti in primitive controllabili e (ii) dettagli contestuali che migliorano la coerenza della scena. I nostri risultati dimostrano che la programmazione grafica simbolica offre una lente precisa e interpretabile sul grounding cross-modale.

English

Large language models (LLMs) excel at program synthesis, yet their ability to produce symbolic graphics programs (SGPs) that render into precise visual content remains underexplored. We study symbolic graphics programming, where the goal is to generate an SGP from a natural-language description. This task also serves as a lens into how LLMs understand the visual world by prompting them to generate images rendered from SGPs. Among various SGPs, our paper sticks to scalable vector graphics (SVGs). We begin by examining the extent to which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a comprehensive benchmark covering object fidelity, scene fidelity, and compositionality (attribute binding, spatial relations, numeracy). On SGP-GenBench, we discover that frontier proprietary models substantially outperform open-source models, and performance correlates well with general coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards approach, where a format-validity gate ensures renderable SVG, and a cross-modal reward aligns text and the rendered image via strong vision encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to Qwen-2.5-7B, our method substantially improves SVG generation quality and semantics, achieving performance on par with frontier systems. We further analyze training dynamics, showing that RL induces (i) finer decomposition of objects into controllable primitives and (ii) contextual details that improve scene coherence. Our results demonstrate that symbolic graphics programming offers a precise and interpretable lens on cross-modal grounding.

Programmazione Grafica Simbolica con Modelli Linguistici di Grande Dimensione

Symbolic Graphics Programming with Large Language Models

Abstract

Support