ChatPaper.aiChatPaper

ChartVerse: Масштабирование анализа диаграмм с помощью надежного программного синтеза с нуля

ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

January 20, 2026
Авторы: Zheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu
cs.AI

Аннотация

Логическое рассуждение на основе диаграмм является ключевой способностью для моделей зрения и языка (VLM). Однако развитие моделей с открытым исходным кодом серьезно сдерживается отсутствием высококачественных данных для обучения. Существующие наборы данных страдают от двойной проблемы: синтетические диаграммы часто упрощены и повторяются, а связанные с ними пары «вопрос-ответ» склонны к галлюцинациям и не обладают необходимой глубиной рассуждений для сложных задач. Чтобы преодолеть этот разрыв, мы предлагаем ChartVerse — масштабируемую структуру, предназначенную для синтеза сложных диаграмм и надежных данных для рассуждений с нуля. (1) Для решения проблемы простых шаблонов мы сначала вводим Rollout Posterior Entropy (RPE) — новую метрику, которая количественно оценивает сложность диаграммы. Руководствуясь RPE, мы разрабатываем кодировщик диаграмм с учетом сложности для автономного синтеза разнообразных диаграмм высокой сложности с помощью исполняемых программ. (2) Для гарантии строгости рассуждений мы разрабатываем синтез обратных пар «вопрос-ответ», закрепленных на истинности. В отличие от стандартной генерации, мы применяем парадигму «сначала ответ»: мы извлекаем детерминированные ответы непосредственно из исходного кода, генерируем вопросы на основе этих якорей и проводим строгую проверку на согласованность. Для дальнейшего повышения сложности и глубины рассуждений мы фильтруем образцы на основе частоты ошибок модели и выделяем высококачественные цепочки рассуждений (Chain-of-Thought, CoT). Мы создали наборы ChartVerse-SFT-600K и ChartVerse-RL-40K, используя Qwen3-VL-30B-A3B-Thinking в качестве учительской модели. Результаты экспериментов показывают, что модель ChartVerse-8B демонстрирует наилучшую производительность, значительно превосходя свою учительскую модель и конкурируя с более мощной Qwen3-VL-32B-Thinking.
English
Chart reasoning is a critical capability for Vision Language Models (VLMs). However, the development of open-source models is severely hindered by the lack of high-quality training data. Existing datasets suffer from a dual challenge: synthetic charts are often simplistic and repetitive, while the associated QA pairs are prone to hallucinations and lack the reasoning depth required for complex tasks. To bridge this gap, we propose ChartVerse, a scalable framework designed to synthesize complex charts and reliable reasoning data from scratch. (1) To address the bottleneck of simple patterns, we first introduce Rollout Posterior Entropy (RPE), a novel metric that quantifies chart complexity. Guided by RPE, we develop complexity-aware chart coder to autonomously synthesize diverse, high-complexity charts via executable programs. (2) To guarantee reasoning rigor, we develop truth-anchored inverse QA synthesis. Diverging from standard generation, we adopt an answer-first paradigm: we extract deterministic answers directly from the source code, generate questions conditional on these anchors, and enforce strict consistency verification. To further elevate difficulty and reasoning depth, we filter samples based on model fail-rate and distill high-quality Chain-of-Thought (CoT) reasoning. We curate ChartVerse-SFT-600K and ChartVerse-RL-40K using Qwen3-VL-30B-A3B-Thinking as the teacher. Experimental results demonstrate that ChartVerse-8B achieves state-of-the-art performance, notably surpassing its teacher and rivaling the stronger Qwen3-VL-32B-Thinking.
PDF62January 27, 2026