Síntesis de Programas de Gráficos Científicos mediante Aprendizaje por Refuerzo de Doble Autoconsistencia

Resumen

La síntesis de programas gráficos es fundamental para interpretar y editar datos visuales, facilitando eficazmente la ingeniería inversa de imágenes estáticas hacia código TikZ editable. Si bien TikZ es el estándar de facto para esquemas científicos debido a su flexibilidad programática, su requisito de una rigurosa precisión espacial representa un desafío significativo para los Modelos de Lenguaje Grandes Multimodales. El progreso se ve actualmente obstaculizado por dos brechas principales: (1) Brecha de Calidad de Datos: los corpus existentes de imágenes y TikZ a menudo carecen de ejecutabilidad estricta y alineación visual confiable; (2) Brecha de Evaluación: falta de puntos de referencia para evaluar tanto la fidelidad estructural como la visual. Para abordar esto, presentamos un marco de circuito cerrado que incluye: SciTikZ-230K, un conjunto de datos extenso y de alta calidad de nuestro Motor de Datos Centrado en la Ejecución, que abarca 11 disciplinas científicas diversas; y SciTikZ-Bench, un punto de referencia multifacético que abarca desde construcciones geométricas básicas hasta esquemas jerárquicos intrincados para evaluar tanto la fidelidad visual como la lógica estructural. Para ampliar aún más el alcance de la metodología de optimización de código visual, introducimos un nuevo paradigma de optimización de Aprendizaje por Refuerzo de Doble Autoconsistencia, que utiliza la Verificación de Ida y Vuelta para penalizar código degenerado y potenciar la autoconsistencia general. Impulsado por estos elementos, nuestro modelo entrenado SciTikZer-8B logra un rendimiento de vanguardia, superando consistentemente a gigantes propietarios como Gemini-2.5-Pro y a modelos masivos como Qwen3-VL-235B-A22B-Instruct.

English

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.

Síntesis de Programas de Gráficos Científicos mediante Aprendizaje por Refuerzo de Doble Autoconsistencia

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Resumen

Support