Allineamento di Testo, Codice e Visione: Un Framework di Apprendimento per Rinforzo Multi-Obiettivo per la Generazione di Visualizzazioni da Testo
Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization
January 8, 2026
Autori: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque
cs.AI
Abstract
I sistemi Text-to-Visualization (Text2Vis) traducono interrogazioni in linguaggio naturale su dati tabellari in risposte concise e visualizzazioni eseguibili. Sebbene i LLM proprietari generino codice funzionale, i grafici risultanti spesso mancano di allineamento semantico e chiarezza, qualità che possono essere valutate solo dopo l'esecuzione. I modelli open-source incontrano difficoltà ancora maggiori, producendo frequentemente output non eseguibili o visivamente scadenti. Sebbene il fine-tuning supervisionato possa migliorare l'eseguibilità del codice, non riesce a potenziare la qualità complessiva della visualizzazione, poiché la perdita SFT tradizionale non può catturare il feedback post-esecuzione. Per colmare questa lacuna, proponiamo RL-Text2Vis, il primo framework di apprendimento per rinforzo per la generazione Text2Vis. Basato sul Group Relative Policy Optimization (GRPO), il nostro metodo utilizza una ricompensa multi-obiettivo innovativa che ottimizza congiuntamente l'accuratezza testuale, la validità del codice e la qualità della visualizzazione sfruttando il feedback post-esecuzione. Addestrando modelli Qwen2.5 (7B e 14B), RL-Text2Vis raggiunge un miglioramento relativo del 22% nella qualità dei grafici rispetto a GPT-4o sul benchmark Text2Vis e incrementa il successo dell'esecuzione del codice dal 78% al 97% rispetto al suo baseline zero-shot. I nostri modelli superano significativamente i baseline zero-shot e supervisionati e dimostrano anche una robusta generalizzazione su dataset fuori dominio come VIS-Eval e NVBench. Questi risultati stabiliscono il GRPO come una strategia efficace per il ragionamento multimodale strutturato nella generazione di visualizzazioni. Rilasciamo il nostro codice all'indirizzo https://github.com/vis-nlp/RL-Text2Vis.
English
Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.