ChatPaper.aiChatPaper

テキスト、コード、視覚の統合:テキストからビジュアライゼーションへの多目的強化学習フレームワーク

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

January 8, 2026
著者: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque
cs.AI

要旨

テキスト可視化(Text2Vis)システムは、表形式データに対する自然言語クエリを簡潔な回答と実行可能な可視化コードに変換する。クローズドソースの大規模言語モデル(LLM)は機能的なコードを生成するが、生成されたチャートは意味的整合性や明瞭さに欠けることが多く、これらの品質は実行後でしか評価できない。オープンソースモデルはさらに深刻で、実行不可能または視覚的に貧弱な出力を頻繁に生成する。教師ありファインチューニングはコードの実行成功率を向上させるが、従来の損失関数では実行後のフィードバックを捉えられないため、可視化の品質向上には限界がある。この課題を解決するため、我々はText2Vis生成向け初の強化学習フレームワークであるRL-Text2Visを提案する。Group Relative Policy Optimization(GRPO)に基づく本手法は、実行後フィードバックを用いてテキスト精度・コード有効性・可視化品質を同時に最適化する新規の多目的報酬関数を採用する。Qwen2.5モデル(7B/14B)を学習した結果、RL-Text2VisはText2VisベンチマークにおいてGPT-4oと比較してチャート品質で22%の相対改善を達成し、ゼロショットベースラインに対しコード実行成功率を78%から97%に向上させた。本モデルは強力なゼロショット及び教師ありベースラインを大幅に上回り、VIS-EvalやNVBenchといったドメイン外データセットに対しても頑健な汎化性能を示した。これらの結果は、可視化生成における構造化されたマルチモーダル推論に対してGRPOが有効な戦略であることを立証する。コードはhttps://github.com/vis-nlp/RL-Text2Vis で公開している。
English
Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.
PDF21January 15, 2026