Synthèse de Programmes Graphiques Scientifiques par Apprentissage par Renforcement à Double Auto-Cohérence

Résumé

La synthèse de programmes graphiques est essentielle pour interpréter et éditer des données visuelles, facilitant efficacement la rétro-ingénierie de visuels statiques en code TikZ modifiable. Bien que TikZ soit le standard de facto pour les schémas scientifiques grâce à sa flexibilité programmatique, son exigence de précision spatiale rigoureuse représente un défi majeur pour les modèles de langage multimodaux. Les progrès sont actuellement entravés par deux lacunes principales : (1) Lacune de qualité des données : les corpus image-TikZ existants manquent souvent d'exécutabilité stricte et d'alignement visuel fiable ; (2) Lacune d'évaluation : absence de benchmarks pour la fidélité structurelle et visuelle. Pour y remédier, nous présentons un cadre en boucle fermée comprenant : SciTikZ-230K, un jeu de données à grande échelle et de haute qualité issu de notre moteur de données centré sur l'exécution, couvrant 11 disciplines scientifiques diverses ; SciTikZ-Bench, un benchmark multidimensionnel allant des constructions géométriques de base aux schémas hiérarchiques complexes pour évaluer à la fois la fidélité visuelle et la logique structurelle. Pour élargir davantage la portée de la méthodologie d'optimisation code-visuel, nous introduisons un nouveau paradigme d'optimisation par apprentissage par renforcement à double auto-cohérence, qui utilise la vérification aller-retour pour pénaliser le code dégénéré et renforcer l'auto-cohérence globale. Fort de ces avancées, notre modèle entraîné SciTikZer-8B obtient des performances state-of-the-art, surpassant systématiquement des modèles propriétaires comme Gemini-2.5-Pro et des modèles massifs comme Qwen3-VL-235B-A22B-Instruct.

English

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.

Synthèse de Programmes Graphiques Scientifiques par Apprentissage par Renforcement à Double Auto-Cohérence

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Résumé

Support