Uitlijning van Tekst, Code en Visie: Een Multi-Doelstellend Reinforcement Learning Framework voor Tekst-naar-Visualisatie

Samenvatting

Text-to-Visualization (Text2Vis)-systemen vertalen natuurlijke-taaluitdrukkingen over tabelgegevens naar beknopte antwoorden en uitvoerbare visualisaties. Hoewel closed-source LLM's functionele code genereren, ontbreekt het de resulterende grafieken vaak aan semantische afstemming en helderheid – kwaliteiten die pas na uitvoering kunnen worden beoordeeld. Open-source modellen presteren nog zwakker en produceren regelmatig niet-uitvoerbare of visueel ondermaatse resultaten. Hoewel supervised fine-tuning de code-uitvoerbaarheid kan verbeteren, slaagt het er niet in de algehele visualisatiekwaliteit te verhogen, omdat traditionele SFT-verliesfuncties geen post-uitvoeringsfeedback kunnen vastleggen. Om deze kloof te dichten, stellen we RL-Text2Vis voor, het eerste reinforcement learning-framework voor Text2Vis-generatie. Gebaseerd op Group Relative Policy Optimization (GRPO), gebruikt onze methode een nieuwe multi-objectieve beloning die tekstuele nauwkeurigheid, codegeldigheid en visualisatiekwaliteit gezamenlijk optimaliseert met behulp van post-uitvoeringsfeedback. Door training van Qwen2.5-modellen (7B en 14B) behaalt RL-Text2Vis een relatieve verbetering van 22% in grafiekkwaliteit ten opzichte van GPT-4o op de Text2Vis-benchmark en verhoogt het code-uitvoeringssucces van 78% naar 97% ten opzichte van de zero-shot-baseline. Onze modellen overtreffen sterke zero-shot en supervised baselines significant en tonen ook robuuste generalisatie naar out-of-domain-datasets zoals VIS-Eval en NVBench. Deze resultaten vestigen GRPO als een effectieve strategie voor gestructureerde, multimodale redenering in visualisatiegeneratie. Onze code is vrijgegeven op https://github.com/vis-nlp/RL-Text2Vis.

English

Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.

Uitlijning van Tekst, Code en Visie: Een Multi-Doelstellend Reinforcement Learning Framework voor Tekst-naar-Visualisatie

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

Samenvatting

Support