Síntese de Programas de Gráficos Científicos via Aprendizado por Reforço com Dupla Autoconsistência

Resumo

A Síntese de Programas Gráficos é fundamental para interpretar e editar dados visuais, facilitando efetivamente a engenharia reversa de elementos visuais estáticos em código TikZ editável. Embora o TikZ seja o padrão de facto para esquemas científicos devido à sua flexibilidade programática, sua exigência de precisão espacial rigorosa representa um desafio significativo para os Modelos de Linguagem Multimodais de Grande Escala. O progresso está atualmente estagnado por duas lacunas principais: (1) Lacuna de Qualidade de Dados: os corpora existentes de imagem-TikZ frequentemente carecem de executabilidade estrita e alinhamento visual confiável; (2) Lacuna de Avaliação: falta de benchmarks para fidelidade estrutural e visual. Para resolver isso, apresentamos uma estrutura de circuito fechado com: SciTikZ-230K, um conjunto de dados em larga escala e alta qualidade da nossa Execution-Centric Data Engine, abrangendo 11 disciplinas científicas diversas; SciTikZ-Bench, um benchmark multifacetado que vai desde construções geométricas básicas até esquemas hierárquicos intrincados para avaliar tanto a fidelidade visual quanto a lógica estrutural. Para ampliar ainda mais o escopo da metodologia de otimização de código visual, introduzimos um novo paradigma de otimização por Reforço de Dupla Autoconsistência, que utiliza Verificação de Ida e Volta para penalizar código degenerado e aumentar a autoconsistência geral. Impulsionado por estes, nosso modelo treinado SciTikZer-8B atinge desempenho state-of-the-art, superando consistentemente gigantes proprietários como o Gemini-2.5-Pro e modelos massivos como o Qwen3-VL-235B-A22B-Instruct.

English

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.

Síntese de Programas de Gráficos Científicos via Aprendizado por Reforço com Dupla Autoconsistência

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Resumo

Support