ChatPaper.aiChatPaper

Alignement du texte, du code et de la vision : Un cadre d'apprentissage par renforcement multi-objectif pour la visualisation à partir de texte

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

January 8, 2026
papers.authors: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque
cs.AI

papers.abstract

Les systèmes de conversion texte-visualisation (Text2Vis) traduisent des requêtes en langage naturel sur des données tabulaires en réponses concises et visualisations exécutables. Bien que les LLM propriétaires génèrent du code fonctionnel, les graphiques résultants manquent souvent d'alignement sémantique et de clarté, des qualités qui ne peuvent être évaluées qu'après exécution. Les modèles open source peinent davantage, produisant fréquemment des résultats non exécutables ou de piètre qualité visuelle. Bien qu'un fine-tuning supervisé puisse améliorer l'exécutabilité du code, il n'améliore pas la qualité globale de la visualisation, car la perte SFT traditionnelle ne peut capter les retours post-exécution. Pour combler cette lacune, nous proposons RL-Text2Vis, le premier cadre d'apprentissage par renforcement pour la génération Text2Vis. Fondée sur l'optimisation de politique relative par groupe (GRPO), notre méthode utilise une nouvelle récompense multi-objectif qui optimise conjointement la précision textuelle, la validité du code et la qualité visuelle en utilisant un retour post-exécution. En entraînant des modèles Qwen2.5 (7B et 14B), RL-Text2Vis obtient une amélioration relative de 22 % de la qualité des graphiques par rapport à GPT-4o sur le benchmark Text2Vis et porte le taux de succès d'exécution du code de 78 % à 97 % par rapport à son baseline zero-shot. Nos modèles surpassent significativement les baselines zero-shot et supervisées robustes et démontrent également une généralisation solide sur des jeux de données hors domaine comme VIS-Eval et NVBench. Ces résultats établissent le GRPO comme une stratégie efficace pour le raisonnement multimodal structuré dans la génération de visualisations. Nous publions notre code à l'adresse https://github.com/vis-nlp/RL-Text2Vis.
English
Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.
PDF21January 15, 2026