ChartVerse: Escalonando o Raciocínio em Gráficos via Síntese Programática Confiável a Partir do Zero

Resumo

O raciocínio sobre gráficos é uma capacidade crítica para os Modelos de Linguagem de Visão (VLMs). No entanto, o desenvolvimento de modelos de código aberto é severamente prejudicado pela falta de dados de treinamento de alta qualidade. Os conjuntos de dados existentes sofrem com um duplo desafio: os gráficos sintéticos são frequentemente simplistas e repetitivos, enquanto os pares de Pergunta-Resposta (QA) associados são propensos a alucinações e carecem da profundidade de raciocínio necessária para tarefas complexas. Para preencher essa lacuna, propomos o ChartVerse, uma estrutura escalável projetada para sintetizar gráficos complexos e dados de raciocínio confiáveis a partir do zero. (1) Para resolver o gargalo dos padrões simples, primeiro introduzimos a Entropia Posterior de Rollout (RPE), uma nova métrica que quantifica a complexidade do gráfico. Guiados pela RPE, desenvolvemos um codificador de gráficos com sensibilidade à complexidade para sintetizar de forma autónoma gráficos diversos e de alta complexidade por meio de programas executáveis. (2) Para garantir o rigor do raciocínio, desenvolvemos uma síntese inversa de QA ancorada na verdade. Diferindo da geração padrão, adotamos um paradigma de resposta-primeiro: extraímos respostas determinísticas diretamente do código-fonte, geramos perguntas condicionadas a essas âncoras e aplicamos uma verificação de consistência estrita. Para elevar ainda mais a dificuldade e a profundidade do raciocínio, filtramos as amostras com base na taxa de falha do modelo e destilamos um raciocínio de Cadeia de Pensamento (CoT) de alta qualidade. Curamos os conjuntos ChartVerse-SFT-600K e ChartVerse-RL-40K usando o Qwen3-VL-30B-A3B-Thinking como professor. Os resultados experimentais demonstram que o ChartVerse-8B alcança um desempenho state-of-the-art, superando notavelmente seu professor e rivalizando com o mais forte Qwen3-VL-32B-Thinking.

English

Chart reasoning is a critical capability for Vision Language Models (VLMs). However, the development of open-source models is severely hindered by the lack of high-quality training data. Existing datasets suffer from a dual challenge: synthetic charts are often simplistic and repetitive, while the associated QA pairs are prone to hallucinations and lack the reasoning depth required for complex tasks. To bridge this gap, we propose ChartVerse, a scalable framework designed to synthesize complex charts and reliable reasoning data from scratch. (1) To address the bottleneck of simple patterns, we first introduce Rollout Posterior Entropy (RPE), a novel metric that quantifies chart complexity. Guided by RPE, we develop complexity-aware chart coder to autonomously synthesize diverse, high-complexity charts via executable programs. (2) To guarantee reasoning rigor, we develop truth-anchored inverse QA synthesis. Diverging from standard generation, we adopt an answer-first paradigm: we extract deterministic answers directly from the source code, generate questions conditional on these anchors, and enforce strict consistency verification. To further elevate difficulty and reasoning depth, we filter samples based on model fail-rate and distill high-quality Chain-of-Thought (CoT) reasoning. We curate ChartVerse-SFT-600K and ChartVerse-RL-40K using Qwen3-VL-30B-A3B-Thinking as the teacher. Experimental results demonstrate that ChartVerse-8B achieves state-of-the-art performance, notably surpassing its teacher and rivaling the stronger Qwen3-VL-32B-Thinking.