Programação Simbólica de Gráficos com Modelos de Linguagem de Grande Escala
Symbolic Graphics Programming with Large Language Models
September 5, 2025
Autores: Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) se destacam na síntese de programas, mas sua capacidade de produzir programas gráficos simbólicos (SGPs) que renderizam conteúdo visual preciso ainda é pouco explorada. Estudamos a programação gráfica simbólica, onde o objetivo é gerar um SGP a partir de uma descrição em linguagem natural. Essa tarefa também serve como uma lente para entender como os LLMs compreendem o mundo visual, ao solicitá-los a gerar imagens renderizadas a partir de SGPs. Entre vários SGPs, nosso artigo foca em gráficos vetoriais escaláveis (SVGs). Começamos examinando até que ponto os LLMs podem gerar SGPs. Para isso, introduzimos o SGP-GenBench, um benchmark abrangente que cobre fidelidade de objetos, fidelidade de cena e composicionalidade (vinculação de atributos, relações espaciais, numeracia). No SGP-GenBench, descobrimos que modelos proprietários de ponta superam substancialmente os modelos de código aberto, e o desempenho está bem correlacionado com as capacidades gerais de codificação. Motivados por essa lacuna, buscamos melhorar a capacidade dos LLMs de gerar SGPs. Propomos uma abordagem de aprendizado por reforço (RL) com recompensas verificáveis, onde um portão de validade de formato garante SVGs renderizáveis, e uma recompensa cross-modal alinha texto e imagem renderizada por meio de codificadores visuais robustos (por exemplo, SigLIP para texto-imagem e DINO para imagem-imagem). Aplicado ao Qwen-2.5-7B, nosso método melhora substancialmente a qualidade e a semântica da geração de SVGs, alcançando desempenho comparável aos sistemas de ponta. Analisamos ainda a dinâmica de treinamento, mostrando que o RL induz (i) uma decomposição mais refinada de objetos em primitivos controláveis e (ii) detalhes contextuais que melhoram a coerência da cena. Nossos resultados demonstram que a programação gráfica simbólica oferece uma lente precisa e interpretável para o alinhamento cross-modal.
English
Large language models (LLMs) excel at program synthesis, yet their ability to
produce symbolic graphics programs (SGPs) that render into precise visual
content remains underexplored. We study symbolic graphics programming, where
the goal is to generate an SGP from a natural-language description. This task
also serves as a lens into how LLMs understand the visual world by prompting
them to generate images rendered from SGPs. Among various SGPs, our paper
sticks to scalable vector graphics (SVGs). We begin by examining the extent to
which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a
comprehensive benchmark covering object fidelity, scene fidelity, and
compositionality (attribute binding, spatial relations, numeracy). On
SGP-GenBench, we discover that frontier proprietary models substantially
outperform open-source models, and performance correlates well with general
coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to
generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards
approach, where a format-validity gate ensures renderable SVG, and a
cross-modal reward aligns text and the rendered image via strong vision
encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to
Qwen-2.5-7B, our method substantially improves SVG generation quality and
semantics, achieving performance on par with frontier systems. We further
analyze training dynamics, showing that RL induces (i) finer decomposition of
objects into controllable primitives and (ii) contextual details that improve
scene coherence. Our results demonstrate that symbolic graphics programming
offers a precise and interpretable lens on cross-modal grounding.