Alineación de Texto, Código y Visión: Un Marco de Aprendizaje por Refuerzo Multiobjetivo para la Generación de Visualizaciones a partir de Texto
Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization
January 8, 2026
Autores: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque
cs.AI
Resumen
Los sistemas de Texto a Visualización (Text2Vis) traducen consultas en lenguaje natural sobre datos tabulares en respuestas concisas y visualizaciones ejecutables. Si bien los LLMs de código cerrado generan código funcional, los gráficos resultantes a menudo carecen de alineación semántica y claridad, cualidades que solo pueden evaluarse tras la ejecución. Los modelos de código abierto tienen aún más dificultades, produciendo frecuentemente salidas no ejecutables o visualmente deficientes. Aunque el ajuste fino supervisado puede mejorar la capacidad de ejecución del código, no logra mejorar la calidad general de la visualización, ya que la pérdida tradicional del SFT no puede capturar la retroalimentación posterior a la ejecución. Para abordar esta brecha, proponemos RL-Text2Vis, el primer marco de aprendizaje por refuerzo para la generación Text2Vis. Basado en la Optimización de Políticas Relativas Grupales (GRPO), nuestro método utiliza una novedosa recompensa multiobjetivo que optimiza conjuntamente la precisión textual, la validez del código y la calidad de la visualización utilizando retroalimentación post-ejecución. Al entrenar modelos Qwen2.5 (7B y 14B), RL-Text2Vis logra una mejora relativa del 22% en la calidad de los gráficos respecto a GPT-4o en el benchmark Text2Vis y aumenta el éxito de la ejecución del código del 78% al 97% en relación con su línea de base zero-shot. Nuestros modelos superan significativamente a las líneas de base zero-shot y supervisadas sólidas y también demuestran una generalización robusta a conjuntos de datos fuera de dominio como VIS-Eval y NVBench. Estos resultados establecen a GRPO como una estrategia efectiva para el razonamiento multimodal estructurado en la generación de visualizaciones. Publicamos nuestro código en https://github.com/vis-nlp/RL-Text2Vis.
English
Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.