ChartVerse : Mise à l'échelle du raisonnement sur les graphiques par une synthèse programmatique fiable à partir de zéro

Résumé

Le raisonnement graphique est une capacité essentielle pour les modèles vision-langage (VLM). Cependant, le développement de modèles open-source est sévèrement entravé par le manque de données d’entraînement de haute qualité. Les jeux de données existants souffrent d’un double défi : les graphiques synthétiques sont souvent simplistes et répétitifs, tandis que les paires question-réponse associées sont sujettes aux hallucinations et manquent de la profondeur de raisonnement nécessaire pour les tâches complexes. Pour combler cette lacune, nous proposons ChartVerse, un cadre évolutif conçu pour synthétiser des graphiques complexes et des données de raisonnement fiables à partir de zéro. (1) Pour résoudre le problème des motifs simples, nous introduisons d’abord l’entropie postérieure de déploiement (RPE), une nouvelle métrique qui quantifie la complexité des graphiques. Guidé par la RPE, nous développons un codeur de graphiques sensible à la complexité pour synthétiser de manière autonome des graphiques diversifiés et de haute complexité via des programmes exécutables. (2) Pour garantir la rigueur du raisonnement, nous développons une synthèse inverse de questions-réponses ancrée dans la vérité. Contrairement à la génération standard, nous adoptons un paradigme réponse d’abord : nous extrayons des réponses déterministes directement du code source, générons des questions conditionnellement à ces ancres, et imposons une vérification stricte de la cohérence. Pour augmenter davantage la difficulté et la profondeur du raisonnement, nous filtrons les échantillons en fonction du taux d’échec du modèle et distillons un raisonnement de haute qualité en chaîne de pensée (CoT). Nous avons constitué ChartVerse-SFT-600K et ChartVerse-RL-40K en utilisant Qwen3-VL-30B-A3B-Thinking comme modèle enseignant. Les résultats expérimentaux démontrent que ChartVerse-8B atteint des performances de pointe, surpassant notablement son enseignant et rivalisant avec le modèle plus puissant Qwen3-VL-32B-Thinking.

English

Chart reasoning is a critical capability for Vision Language Models (VLMs). However, the development of open-source models is severely hindered by the lack of high-quality training data. Existing datasets suffer from a dual challenge: synthetic charts are often simplistic and repetitive, while the associated QA pairs are prone to hallucinations and lack the reasoning depth required for complex tasks. To bridge this gap, we propose ChartVerse, a scalable framework designed to synthesize complex charts and reliable reasoning data from scratch. (1) To address the bottleneck of simple patterns, we first introduce Rollout Posterior Entropy (RPE), a novel metric that quantifies chart complexity. Guided by RPE, we develop complexity-aware chart coder to autonomously synthesize diverse, high-complexity charts via executable programs. (2) To guarantee reasoning rigor, we develop truth-anchored inverse QA synthesis. Diverging from standard generation, we adopt an answer-first paradigm: we extract deterministic answers directly from the source code, generate questions conditional on these anchors, and enforce strict consistency verification. To further elevate difficulty and reasoning depth, we filter samples based on model fail-rate and distill high-quality Chain-of-Thought (CoT) reasoning. We curate ChartVerse-SFT-600K and ChartVerse-RL-40K using Qwen3-VL-30B-A3B-Thinking as the teacher. Experimental results demonstrate that ChartVerse-8B achieves state-of-the-art performance, notably surpassing its teacher and rivaling the stronger Qwen3-VL-32B-Thinking.

ChartVerse : Mise à l'échelle du raisonnement sur les graphiques par une synthèse programmatique fiable à partir de zéro

ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

Résumé

Support