Programmation graphique symbolique avec des modèles de langage de grande envergure
Symbolic Graphics Programming with Large Language Models
September 5, 2025
papers.authors: Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) excellent dans la synthèse de programmes, mais leur capacité à produire des programmes graphiques symboliques (SGPs) qui se traduisent en un contenu visuel précis reste peu explorée. Nous étudions la programmation graphique symbolique, où l'objectif est de générer un SGP à partir d'une description en langage naturel. Cette tâche sert également de prisme pour comprendre comment les LLMs interprètent le monde visuel en les incitant à générer des images rendues à partir de SGPs. Parmi les différents SGPs, notre article se concentre sur les graphiques vectoriels évolutifs (SVGs). Nous commençons par examiner dans quelle mesure les LLMs peuvent générer des SGPs. À cette fin, nous introduisons SGP-GenBench, un benchmark complet couvrant la fidélité des objets, la fidélité des scènes et la compositionnalité (liaison d'attributs, relations spatiales, numératie). Sur SGP-GenBench, nous découvrons que les modèles propriétaires de pointe surpassent largement les modèles open-source, et que la performance est bien corrélée avec les capacités générales de codage. Motivés par cet écart, nous visons à améliorer la capacité des LLMs à générer des SGPs. Nous proposons une approche d'apprentissage par renforcement (RL) avec des récompenses vérifiables, où une porte de validité de format garantit un SVG rendable, et une récompense cross-modale aligne le texte et l'image rendue via des encodeurs visuels puissants (par exemple, SigLIP pour texte-image et DINO pour image-image). Appliquée à Qwen-2.5-7B, notre méthode améliore considérablement la qualité et la sémantique de la génération de SVGs, atteignant des performances comparables aux systèmes de pointe. Nous analysons également la dynamique de l'entraînement, montrant que le RL induit (i) une décomposition plus fine des objets en primitives contrôlables et (ii) des détails contextuels qui améliorent la cohérence des scènes. Nos résultats démontrent que la programmation graphique symbolique offre une perspective précise et interprétable sur l'ancrage cross-modal.
English
Large language models (LLMs) excel at program synthesis, yet their ability to
produce symbolic graphics programs (SGPs) that render into precise visual
content remains underexplored. We study symbolic graphics programming, where
the goal is to generate an SGP from a natural-language description. This task
also serves as a lens into how LLMs understand the visual world by prompting
them to generate images rendered from SGPs. Among various SGPs, our paper
sticks to scalable vector graphics (SVGs). We begin by examining the extent to
which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a
comprehensive benchmark covering object fidelity, scene fidelity, and
compositionality (attribute binding, spatial relations, numeracy). On
SGP-GenBench, we discover that frontier proprietary models substantially
outperform open-source models, and performance correlates well with general
coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to
generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards
approach, where a format-validity gate ensures renderable SVG, and a
cross-modal reward aligns text and the rendered image via strong vision
encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to
Qwen-2.5-7B, our method substantially improves SVG generation quality and
semantics, achieving performance on par with frontier systems. We further
analyze training dynamics, showing that RL induces (i) finer decomposition of
objects into controllable primitives and (ii) contextual details that improve
scene coherence. Our results demonstrate that symbolic graphics programming
offers a precise and interpretable lens on cross-modal grounding.