Alinhando Texto, Código e Visão: Uma Estrutura de Aprendizagem por Reforço Multiobjetivo para Geração de Visualizações a partir de Texto
Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization
January 8, 2026
Autores: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque
cs.AI
Resumo
Os sistemas Texto para Visualização (Text2Vis) traduzem consultas em linguagem natural sobre dados tabulares em respostas concisas e visualizações executáveis. Embora os LLMs proprietários gerem código funcional, os gráficos resultantes frequentemente carecem de alinhamento semântico e clareza, qualidades que só podem ser avaliadas após a execução. Os modelos de código aberto enfrentam dificuldades ainda maiores, produzindo frequentemente saídas não executáveis ou visualmente pobres. Embora o ajuste fino supervisionado possa melhorar a capacidade de execução do código, ele não consegue aprimorar a qualidade geral da visualização, uma vez que a perda tradicional do SFT não consegue capturar o *feedback* pós-execução. Para preencher esta lacuna, propomos o RL-Text2Vis, o primeiro *framework* de aprendizagem por reforço para geração Text2Vis. Desenvolvido com base na Otimização de Política Relativa de Grupo (GRPO), o nosso método utiliza uma nova recompensa multiobjetivo que otimiza conjuntamente a precisão textual, a validade do código e a qualidade da visualização usando *feedback* pós-execução. Ao treinar modelos Qwen2.5 (7B e 14B), o RL-Text2Vis alcança uma melhoria relativa de 22% na qualidade dos gráficos em comparação com o GPT-4o no *benchmark* Text2Vis e aumenta o sucesso da execução do código de 78% para 97% em relação à sua linha de base *zero-shot*. Os nossos modelos superam significativamente as linhas de base *zero-shot* e supervisionadas robustas e também demonstram uma generalização robusta para conjuntos de dados fora do domínio, como o VIS-Eval e o NVBench. Estes resultados estabelecem o GRPO como uma estratégia eficaz para o raciocínio estruturado e multimodal na geração de visualizações. Disponibilizamos o nosso código em https://github.com/vis-nlp/RL-Text2Vis.
English
Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.