ChatPaper.aiChatPaper

Выравнивание текста, кода и визуализации: многокритериальная система обучения с подкреплением для генерации визуализаций по текстовому описанию

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

January 8, 2026
Авторы: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque
cs.AI

Аннотация

Системы Text-to-Visualization (Text2Vis) преобразуют запросы на естественном языке к табличным данным в краткие ответы и исполняемые визуализации. Хотя закрытые LLM генерируют рабочий код, результирующие диаграммы часто страдают от недостаточной семантической согласованности и ясности — качеств, которые можно оценить только после выполнения кода. Модели с открытым исходным кодом справляются еще хуже, часто производя неисполняемый или визуально неудовлетворительный результат. Хотя контролируемое тонкое обучение (SFT) может улучшить исполняемость кода, оно не способно повысить общее качество визуализации, поскольку традиционная функция потерь SFT не учитывает обратную связь после выполнения. Чтобы устранить этот пробел, мы предлагаем RL-Text2Vis — первую систему генерации Text2Vis на основе обучения с подкреплением. Построенный на основе Group Relative Policy Optimization (GRPO), наш метод использует новую многокритериальную функцию вознаграждения, которая совместно оптимизирует текстовую точность, корректность кода и качество визуализации с использованием обратной связи после выполнения. Обучив модели Qwen2.5 (7B и 14B), RL-Text2Vis достигает относительного улучшения качества диаграмм на 22% по сравнению с GPT-4o на бенчмарке Text2Vis и повышает процент успешного выполнения кода с 78% до 97% относительно базового zero-shot подхода. Наши модели значительно превосходят сильные zero-shot и контролируемые базовые уровни, а также демонстрируют robustную генерализацию на внешних наборах данных, таких как VIS-Eval и NVBench. Эти результаты подтверждают эффективность GRPO как стратегии для структурированного мультимодального вывода в задаче генерации визуализаций. Наш код доступен по адресу https://github.com/vis-nlp/RL-Text2Vis.
English
Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.
PDF21January 15, 2026