텍스트, 코드, 시각화의 정렬: 텍스트-시각화 생성을 위한 다중 목표 강화 학습 프레임워크
Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization
January 8, 2026
저자: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque
cs.AI
초록
텍스트-시각화(Text2Vis) 시스템은 표 형식의 데이터에 대한 자연어 질의를 간결한 답변과 실행 가능한 시각화로 변환합니다. 독점적인 대형 언어 모델(LLM)은 기능적인 코드를 생성하지만, 결과 차트는 종종 의미론적 정렬과 명확성이 부족한데, 이러한 품질은 실행 후에만 평가할 수 있습니다. 오픈소스 모델은 더욱 어려움을 겪으며, 실행 불가능하거나 시각적으로 열악한 출력을 빈번히 생성합니다. 지도 미세 조정은 코드 실행 가능성을 향상시킬 수 있지만, 기존의 지도 미세 조정 손실은 실행 후 피드백을 포착할 수 없어 전반적인 시각화 품질 향상에는 실패합니다. 이러한 격차를 해결하기 위해 우리는 Text2Vis 생성을 위한 최초의 강화 학습 프레임워크인 RL-Text2Vis를 제안합니다. Group Relative Policy Optimization(GRPO)을 기반으로 하는 우리의 방법은 실행 후 피드백을 사용하여 텍스트 정확도, 코드 유효성 및 시각화 품질을 공동으로 최적화하는 새로운 다중 목표 보상 함수를 활용합니다. Qwen2.5 모델(7B 및 14B)을 학습시킨 결과, RL-Text2Vis는 Text2Vis 벤치마크에서 GPT-4o 대비 차트 품질이 22% 상대적으로 향상되었으며, 제로샷 기준선 대비 코드 실행 성공률을 78%에서 97%로 끌어올렸습니다. 우리의 모델은 강력한 제로샷 및 지도 학습 기준선을 크게 능가하며, VIS-Eval 및 NVBench와 같은 외부 도메인 데이터셋에 대한 견고한 일반화 능력도 보여줍니다. 이러한 결과는 GRPO가 시각화 생성에서 구조화된 다중 모달 추론을 위한 효과적인 전략임을 입증합니다. 우리는 코드를 https://github.com/vis-nlp/RL-Text2Vis 에 공개합니다.
English
Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.