ChartVerse: 信頼性のあるプログラム的合成によるゼロからのチャート推論のスケーリング
ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch
January 20, 2026
著者: Zheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu
cs.AI
要旨
チャート推論は、視覚言語モデル(VLM)にとって極めて重要な能力である。しかし、高品質な訓練データの不足により、オープンソースモデルの開発は深刻な妨げを受けている。既存のデータセットは二重の課題に直面している。すなわち、合成チャートは単純で反復的であることが多く、関連するQAペアは幻覚(ハルシネーション)が生じやすく、複雑なタスクに必要な推論の深さを欠いている。このギャップを埋めるため、我々は複雑なチャートと信頼性の高い推論データをゼロから合成するためのスケーラブルなフレームワーク、ChartVerseを提案する。(1) 単純なパターンというボトルネックに対処するため、まずチャートの複雑さを定量化する新しい指標であるRollout Posterior Entropy(RPE)を導入する。RPEに導かれ、複雑度を考慮したチャートコーダを開発し、実行可能なプログラムを通じて多様で高複雑度のチャートを自律的に合成する。(2) 推論の厳密性を保証するため、真実に固定された逆方向QA合成を開発する。標準的な生成手法とは異なり、回答先行のパラダイムを採用する。すなわち、ソースコードから決定的な回答を直接抽出し、これらのアンカーに条件づけて質問を生成し、厳格な一貫性検証を実施する。難易度と推論の深さをさらに高めるため、モデルの失敗率に基づいてサンプルをフィルタリングし、高品質な連鎖思考(Chain-of-Thought, CoT)推論を蒸留する。Qwen3-VL-30B-A3B-Thinkingを教師モデルとして用い、ChartVerse-SFT-600KとChartVerse-RL-40Kを構築した。実験結果は、ChartVerse-8Bが最先端の性能を達成し、特にその教師モデルを凌駕し、より強力なQwen3-VL-32B-Thinkingに匹敵することを示している。
English
Chart reasoning is a critical capability for Vision Language Models (VLMs). However, the development of open-source models is severely hindered by the lack of high-quality training data. Existing datasets suffer from a dual challenge: synthetic charts are often simplistic and repetitive, while the associated QA pairs are prone to hallucinations and lack the reasoning depth required for complex tasks. To bridge this gap, we propose ChartVerse, a scalable framework designed to synthesize complex charts and reliable reasoning data from scratch. (1) To address the bottleneck of simple patterns, we first introduce Rollout Posterior Entropy (RPE), a novel metric that quantifies chart complexity. Guided by RPE, we develop complexity-aware chart coder to autonomously synthesize diverse, high-complexity charts via executable programs. (2) To guarantee reasoning rigor, we develop truth-anchored inverse QA synthesis. Diverging from standard generation, we adopt an answer-first paradigm: we extract deterministic answers directly from the source code, generate questions conditional on these anchors, and enforce strict consistency verification. To further elevate difficulty and reasoning depth, we filter samples based on model fail-rate and distill high-quality Chain-of-Thought (CoT) reasoning. We curate ChartVerse-SFT-600K and ChartVerse-RL-40K using Qwen3-VL-30B-A3B-Thinking as the teacher. Experimental results demonstrate that ChartVerse-8B achieves state-of-the-art performance, notably surpassing its teacher and rivaling the stronger Qwen3-VL-32B-Thinking.