Символическое программирование графики с использованием больших языковых моделей
Symbolic Graphics Programming with Large Language Models
September 5, 2025
Авторы: Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu
cs.AI
Аннотация
Крупные языковые модели (LLM) преуспевают в синтезе программ, однако их способность создавать символические графические программы (SGP), которые преобразуются в точное визуальное содержание, остается недостаточно изученной. Мы исследуем символическое графическое программирование, где цель заключается в генерации SGP из описания на естественном языке. Эта задача также служит инструментом для понимания того, как LLM воспринимают визуальный мир, путем побуждения их генерировать изображения, созданные из SGP. Среди различных SGP наша работа сосредоточена на масштабируемой векторной графике (SVG). Мы начинаем с изучения того, насколько LLM способны генерировать SGP. Для этого мы представляем SGP-GenBench — комплексный бенчмарк, охватывающий точность объектов, точность сцен и композиционность (связывание атрибутов, пространственные отношения, числовые навыки). На SGP-GenBench мы обнаруживаем, что передовые проприетарные модели значительно превосходят модели с открытым исходным кодом, а производительность хорошо коррелирует с общими способностями к программированию. Вдохновленные этим разрывом, мы стремимся улучшить способность LLM генерировать SGP. Мы предлагаем подход с обучением с подкреплением (RL) и проверяемыми наградами, где ворота проверки формата обеспечивают возможность рендеринга SVG, а кросс-модальная награда согласовывает текст и отрендеренное изображение с помощью мощных визуальных кодировщиков (например, SigLIP для текста и изображения и DINO для изображения и изображения). Примененный к Qwen-2.5-7B, наш метод значительно улучшает качество и семантику генерации SVG, достигая производительности на уровне передовых систем. Мы также анализируем динамику обучения, показывая, что RL способствует (i) более детальному разложению объектов на управляемые примитивы и (ii) контекстуальным деталям, улучшающим согласованность сцены. Наши результаты демонстрируют, что символическое графическое программирование предлагает точный и интерпретируемый взгляд на кросс-модальное заземление.
English
Large language models (LLMs) excel at program synthesis, yet their ability to
produce symbolic graphics programs (SGPs) that render into precise visual
content remains underexplored. We study symbolic graphics programming, where
the goal is to generate an SGP from a natural-language description. This task
also serves as a lens into how LLMs understand the visual world by prompting
them to generate images rendered from SGPs. Among various SGPs, our paper
sticks to scalable vector graphics (SVGs). We begin by examining the extent to
which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a
comprehensive benchmark covering object fidelity, scene fidelity, and
compositionality (attribute binding, spatial relations, numeracy). On
SGP-GenBench, we discover that frontier proprietary models substantially
outperform open-source models, and performance correlates well with general
coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to
generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards
approach, where a format-validity gate ensures renderable SVG, and a
cross-modal reward aligns text and the rendered image via strong vision
encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to
Qwen-2.5-7B, our method substantially improves SVG generation quality and
semantics, achieving performance on par with frontier systems. We further
analyze training dynamics, showing that RL induces (i) finer decomposition of
objects into controllable primitives and (ii) contextual details that improve
scene coherence. Our results demonstrate that symbolic graphics programming
offers a precise and interpretable lens on cross-modal grounding.