Alinhando Texto, Código e Visão: Uma Estrutura de Aprendizagem por Reforço Multiobjetivo para Geração de Visualizações a partir de Texto

Resumo

Os sistemas Texto para Visualização (Text2Vis) traduzem consultas em linguagem natural sobre dados tabulares em respostas concisas e visualizações executáveis. Embora os LLMs proprietários gerem código funcional, os gráficos resultantes frequentemente carecem de alinhamento semântico e clareza, qualidades que só podem ser avaliadas após a execução. Os modelos de código aberto enfrentam dificuldades ainda maiores, produzindo frequentemente saídas não executáveis ou visualmente pobres. Embora o ajuste fino supervisionado possa melhorar a capacidade de execução do código, ele não consegue aprimorar a qualidade geral da visualização, uma vez que a perda tradicional do SFT não consegue capturar o *feedback* pós-execução. Para preencher esta lacuna, propomos o RL-Text2Vis, o primeiro *framework* de aprendizagem por reforço para geração Text2Vis. Desenvolvido com base na Otimização de Política Relativa de Grupo (GRPO), o nosso método utiliza uma nova recompensa multiobjetivo que otimiza conjuntamente a precisão textual, a validade do código e a qualidade da visualização usando *feedback* pós-execução. Ao treinar modelos Qwen2.5 (7B e 14B), o RL-Text2Vis alcança uma melhoria relativa de 22% na qualidade dos gráficos em comparação com o GPT-4o no *benchmark* Text2Vis e aumenta o sucesso da execução do código de 78% para 97% em relação à sua linha de base *zero-shot*. Os nossos modelos superam significativamente as linhas de base *zero-shot* e supervisionadas robustas e também demonstram uma generalização robusta para conjuntos de dados fora do domínio, como o VIS-Eval e o NVBench. Estes resultados estabelecem o GRPO como uma estratégia eficaz para o raciocínio estruturado e multimodal na geração de visualizações. Disponibilizamos o nosso código em https://github.com/vis-nlp/RL-Text2Vis.

English

Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.

Alinhando Texto, Código e Visão: Uma Estrutura de Aprendizagem por Reforço Multiobjetivo para Geração de Visualizações a partir de Texto

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

Resumo

Support