Ausrichtung von Text, Code und Vision: Ein Multi-Objective Reinforcement Learning Framework für Text-zu-Visualisierung
Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization
January 8, 2026
papers.authors: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque
cs.AI
papers.abstract
Text-to-Visualization (Text2Vis)-Systeme übersetzen natürliche Sprachabfragen über tabellarische Daten in präzise Antworten und ausführbare Visualisierungen. Während proprietäre Large Language Models (LLMs) funktionalen Code generieren, weisen die resultierenden Diagramme oft mangelnde semantische Übereinstimmung und Klarheit auf – Eigenschaften, die erst nach der Ausführung bewertet werden können. Open-Source-Modelle schneiden noch schlechter ab und erzeugen häufig nicht ausführbare oder visuell minderwertige Ergebnisse. Obwohl überwachtes Fine-Tuning die Code-Ausführbarkeit verbessern kann, steigert es nicht die allgemeine Visualisierungsqualität, da herkömmliche SFT-Verluste kein Feedback nach der Ausführung erfassen können. Um diese Lücke zu schließen, schlagen wir RL-Text2Vis vor, das erste Reinforcement-Learning-Framework für Text2Vis-Generierung. Basierend auf Group Relative Policy Optimization (GRPO) nutzt unsere Methode eine neuartige multi-objective Belohnungsfunktion, die textuelle Genauigkeit, Code-Gültigkeit und Visualisierungsqualität unter Verwendung von Feedback nach der Ausführung gemeinsam optimiert. Durch das Training von Qwen2.5-Modellen (7B und 14B) erzielt RL-Text2Vis eine relative Verbesserung der Diagrammqualität um 22 % gegenüber GPT-4o auf dem Text2Vis-Benchmark und steigert die Code-Ausführungsrate von 78 % auf 97 % im Vergleich zur Zero-Shot-Baseline. Unsere Modelle übertreffen starke Zero-Shot- und überwachte Baseline-Modelle signifikant und zeigen zudem robuste Generalisierung auf out-of-domain-Datensätze wie VIS-Eval und NVBench. Diese Ergebnisse etablieren GRPO als effektive Strategie für strukturiertes, multimodales Reasoning in der Visualisierungsgenerierung. Unser Code ist unter https://github.com/vis-nlp/RL-Text2Vis verfügbar.
English
Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.