Symbolische Grafikprogrammierung mit großen Sprachmodellen
Symbolic Graphics Programming with Large Language Models
September 5, 2025
papers.authors: Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit zur Programmsynthese aus, doch ihre Fähigkeit, symbolische Grafikprogramme (SGPs) zu erstellen, die in präzise visuelle Inhalte gerendert werden, ist noch wenig erforscht. Wir untersuchen die symbolische Grafikprogrammierung, bei der das Ziel darin besteht, ein SGP aus einer natürlichen Sprachbeschreibung zu generieren. Diese Aufgabe dient auch als Linse, um zu verstehen, wie LLMs die visuelle Welt interpretieren, indem sie dazu aufgefordert werden, Bilder zu generieren, die aus SGPs gerendert werden. Unter den verschiedenen SGPs konzentriert sich unser Artikel auf skalierbare Vektorgrafiken (SVGs). Wir beginnen damit, das Ausmaß zu untersuchen, in dem LLMs SGPs generieren können. Zu diesem Zweck führen wir SGP-GenBench ein, einen umfassenden Benchmark, der Objekttreue, Szenerietreue und Kompositionalität (Attributbindung, räumliche Beziehungen, Numerik) abdeckt. Auf SGP-GenBench stellen wir fest, dass führende proprietäre Modelle Open-Source-Modelle deutlich übertreffen und die Leistung gut mit den allgemeinen Programmierfähigkeiten korreliert. Motiviert durch diese Lücke, zielen wir darauf ab, die Fähigkeit von LLMs zur Generierung von SGPs zu verbessern. Wir schlagen einen Ansatz mit verstärkendem Lernen (RL) und verifizierbaren Belohnungen vor, bei dem ein Formatvaliditäts-Gate sicherstellt, dass das SVG rendbar ist, und eine cross-modale Belohnung den Text und das gerenderte Bild über starke Vision-Encoder (z.B. SigLIP für Text-Bild und DINO für Bild-Bild) ausrichtet. Angewendet auf Qwen-2.5-7B verbessert unsere Methode die Qualität und Semantik der SVG-Generierung erheblich und erreicht eine Leistung, die mit führenden Systemen vergleichbar ist. Wir analysieren weiterhin die Trainingsdynamik und zeigen, dass RL (i) eine feinere Zerlegung von Objekten in kontrollierbare Primitive und (ii) kontextuelle Details induziert, die die Kohärenz der Szene verbessern. Unsere Ergebnisse demonstrieren, dass die symbolische Grafikprogrammierung eine präzise und interpretierbare Linse für die cross-modale Verankerung bietet.
English
Large language models (LLMs) excel at program synthesis, yet their ability to
produce symbolic graphics programs (SGPs) that render into precise visual
content remains underexplored. We study symbolic graphics programming, where
the goal is to generate an SGP from a natural-language description. This task
also serves as a lens into how LLMs understand the visual world by prompting
them to generate images rendered from SGPs. Among various SGPs, our paper
sticks to scalable vector graphics (SVGs). We begin by examining the extent to
which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a
comprehensive benchmark covering object fidelity, scene fidelity, and
compositionality (attribute binding, spatial relations, numeracy). On
SGP-GenBench, we discover that frontier proprietary models substantially
outperform open-source models, and performance correlates well with general
coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to
generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards
approach, where a format-validity gate ensures renderable SVG, and a
cross-modal reward aligns text and the rendered image via strong vision
encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to
Qwen-2.5-7B, our method substantially improves SVG generation quality and
semantics, achieving performance on par with frontier systems. We further
analyze training dynamics, showing that RL induces (i) finer decomposition of
objects into controllable primitives and (ii) contextual details that improve
scene coherence. Our results demonstrate that symbolic graphics programming
offers a precise and interpretable lens on cross-modal grounding.