ChatPaper.aiChatPaper

Synthèse de Programmes Graphiques Scientifiques par Apprentissage par Renforcement à Double Auto-Cohérence

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

April 7, 2026
Auteurs: Juekai Lin, Yun Zhu, Honglin Lin, Sijing Li, Tianwei Lin, Zheng Liu, Xiaoyang Wang, Wenqiao Zhang, Lijun Wu
cs.AI

Résumé

La synthèse de programmes graphiques est essentielle pour interpréter et éditer des données visuelles, facilitant efficacement la rétro-ingénierie de visuels statiques en code TikZ modifiable. Bien que TikZ soit le standard de facto pour les schémas scientifiques grâce à sa flexibilité programmatique, son exigence de précision spatiale rigoureuse représente un défi majeur pour les modèles de langage multimodaux. Les progrès sont actuellement entravés par deux lacunes principales : (1) Lacune de qualité des données : les corpus image-TikZ existants manquent souvent d'exécutabilité stricte et d'alignement visuel fiable ; (2) Lacune d'évaluation : absence de benchmarks pour la fidélité structurelle et visuelle. Pour y remédier, nous présentons un cadre en boucle fermée comprenant : SciTikZ-230K, un jeu de données à grande échelle et de haute qualité issu de notre moteur de données centré sur l'exécution, couvrant 11 disciplines scientifiques diverses ; SciTikZ-Bench, un benchmark multidimensionnel allant des constructions géométriques de base aux schémas hiérarchiques complexes pour évaluer à la fois la fidélité visuelle et la logique structurelle. Pour élargir davantage la portée de la méthodologie d'optimisation code-visuel, nous introduisons un nouveau paradigme d'optimisation par apprentissage par renforcement à double auto-cohérence, qui utilise la vérification aller-retour pour pénaliser le code dégénéré et renforcer l'auto-cohérence globale. Fort de ces avancées, notre modèle entraîné SciTikZer-8B obtient des performances state-of-the-art, surpassant systématiquement des modèles propriétaires comme Gemini-2.5-Pro et des modèles massifs comme Qwen3-VL-235B-A22B-Instruct.
English
Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.
PDF30April 9, 2026