Programación Gráfica Simbólica con Modelos de Lenguaje a Gran Escala

Resumen

Los modelos de lenguaje de gran escala (LLMs) sobresalen en la síntesis de programas, pero su capacidad para producir programas de gráficos simbólicos (SGPs) que se renderizan en contenido visual preciso sigue siendo poco explorada. Estudiamos la programación de gráficos simbólicos, donde el objetivo es generar un SGP a partir de una descripción en lenguaje natural. Esta tarea también sirve como una lente para entender cómo los LLMs comprenden el mundo visual al incitarlos a generar imágenes renderizadas a partir de SGPs. Entre varios SGPs, nuestro artículo se centra en gráficos vectoriales escalables (SVGs). Comenzamos examinando hasta qué punto los LLMs pueden generar SGPs. Para ello, introducimos SGP-GenBench, un benchmark integral que cubre fidelidad de objetos, fidelidad de escenas y composicionalidad (vinculación de atributos, relaciones espaciales, numeración). En SGP-GenBench, descubrimos que los modelos propietarios de vanguardia superan sustancialmente a los modelos de código abierto, y el rendimiento se correlaciona bien con las capacidades generales de codificación. Motivados por esta brecha, buscamos mejorar la capacidad de los LLMs para generar SGPs. Proponemos un enfoque de aprendizaje por refuerzo (RL) con recompensas verificables, donde una puerta de validez de formato asegura SVG renderizable, y una recompensa multimodal alinea el texto y la imagen renderizada mediante codificadores visuales potentes (por ejemplo, SigLIP para texto-imagen y DINO para imagen-imagen). Aplicado a Qwen-2.5-7B, nuestro método mejora sustancialmente la calidad y semántica de la generación de SVG, logrando un rendimiento comparable con los sistemas de vanguardia. Además, analizamos la dinámica del entrenamiento, mostrando que RL induce (i) una descomposición más fina de objetos en primitivas controlables y (ii) detalles contextuales que mejoran la coherencia de la escena. Nuestros resultados demuestran que la programación de gráficos simbólicos ofrece una lente precisa e interpretable sobre la fundamentación multimodal.

English

Large language models (LLMs) excel at program synthesis, yet their ability to produce symbolic graphics programs (SGPs) that render into precise visual content remains underexplored. We study symbolic graphics programming, where the goal is to generate an SGP from a natural-language description. This task also serves as a lens into how LLMs understand the visual world by prompting them to generate images rendered from SGPs. Among various SGPs, our paper sticks to scalable vector graphics (SVGs). We begin by examining the extent to which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a comprehensive benchmark covering object fidelity, scene fidelity, and compositionality (attribute binding, spatial relations, numeracy). On SGP-GenBench, we discover that frontier proprietary models substantially outperform open-source models, and performance correlates well with general coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards approach, where a format-validity gate ensures renderable SVG, and a cross-modal reward aligns text and the rendered image via strong vision encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to Qwen-2.5-7B, our method substantially improves SVG generation quality and semantics, achieving performance on par with frontier systems. We further analyze training dynamics, showing that RL induces (i) finer decomposition of objects into controllable primitives and (ii) contextual details that improve scene coherence. Our results demonstrate that symbolic graphics programming offers a precise and interpretable lens on cross-modal grounding.

Programación Gráfica Simbólica con Modelos de Lenguaje a Gran Escala

Symbolic Graphics Programming with Large Language Models

Resumen

Support