ChartVerse: Skalierbare Diagrammargumentation durch zuverlässige programmatische Synthese von Grund auf
ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch
January 20, 2026
papers.authors: Zheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu
cs.AI
papers.abstract
Diagrammverständnis ist eine entscheidende Fähigkeit für Vision-Language-Models (VLMs). Die Entwicklung quelloffener Modelle wird jedoch stark durch den Mangel an hochwertigen Trainingsdaten behindert. Bestehende Datensätze leiden unter einer doppelten Herausforderung: synthetische Diagramme sind oft simplistisch und repetitiv, während die zugehörigen Frage-Antwort-Paare anfällig für Halluzinationen sind und die für komplexe Aufgaben notwendige Reasoning-Tiefe fehlt. Um diese Lücke zu schließen, schlagen wir ChartVerse vor, einen skalierbaren Framework zur Synthese komplexer Diagramme und verlässlicher Reasoning-Daten von Grund auf. (1) Um den Engpass einfacher Muster zu adressieren, führen wir zunächst Rollout Posterior Entropy (RPE) ein, eine neuartige Metrik zur Quantifizierung von Diagrammkomplexität. Angeleitet durch RPE entwickeln wir einen komplexitätsbewussten Diagramm-Coder, der autonom vielfältige, hochkomplexe Diagramme via ausführbarer Programme synthetisiert. (2) Um Reasoning-Strenge zu gewährleisten, entwickeln wir eine wahrheitsverankerte inverse QA-Synthese. Abweichend von der Standardgenerierung nutzen wir ein antwort-zuerst-Paradigma: Wir extrahieren deterministische Antworten direkt aus dem Quellcode, generieren Fragen bedingt auf diesen Ankern und erzwingen strikte Konsistenzprüfung. Um Schwierigkeitsgrad und Reasoning-Tiefe weiter zu steigern, filtern wir Samples basierend auf der Modell-Fail-Rate und destillieren hochwertige Chain-of-Thought (CoT)-Reasoning-Pfade. Wir kuratieren ChartVerse-SFT-600K und ChartVerse-RL-40K unter Verwendung von Qwen3-VL-30B-A3B-Thinking als Teacher-Modell. Experimentelle Ergebnisse zeigen, dass ChartVerse-8B state-of-the-art Leistung erreicht und dabei bemerkenswerterweise sein Teacher-Modell übertrifft sowie mit dem stärkeren Qwen3-VL-32B-Thinking konkurrieren kann.
English
Chart reasoning is a critical capability for Vision Language Models (VLMs). However, the development of open-source models is severely hindered by the lack of high-quality training data. Existing datasets suffer from a dual challenge: synthetic charts are often simplistic and repetitive, while the associated QA pairs are prone to hallucinations and lack the reasoning depth required for complex tasks. To bridge this gap, we propose ChartVerse, a scalable framework designed to synthesize complex charts and reliable reasoning data from scratch. (1) To address the bottleneck of simple patterns, we first introduce Rollout Posterior Entropy (RPE), a novel metric that quantifies chart complexity. Guided by RPE, we develop complexity-aware chart coder to autonomously synthesize diverse, high-complexity charts via executable programs. (2) To guarantee reasoning rigor, we develop truth-anchored inverse QA synthesis. Diverging from standard generation, we adopt an answer-first paradigm: we extract deterministic answers directly from the source code, generate questions conditional on these anchors, and enforce strict consistency verification. To further elevate difficulty and reasoning depth, we filter samples based on model fail-rate and distill high-quality Chain-of-Thought (CoT) reasoning. We curate ChartVerse-SFT-600K and ChartVerse-RL-40K using Qwen3-VL-30B-A3B-Thinking as the teacher. Experimental results demonstrate that ChartVerse-8B achieves state-of-the-art performance, notably surpassing its teacher and rivaling the stronger Qwen3-VL-32B-Thinking.