Wetenschappelijk Grafisch Programma Synthese via Duale Zelfconsistentie Versterkend Leren

Samenvatting

Graphics Program Synthesis is cruciaal voor het interpreteren en bewerken van visuele data, en vergemakkelijkt effectief het reverse-engineeren van statische beelden naar bewerkbare TikZ-code. Hoewel TikZ de facto de standaard is voor wetenschappelijke schema's vanwege zijn programmeerflexibiliteit, vormt de vereiste van rigoureuze ruimtelijke precisie een aanzienlijke uitdaging voor Multimodale Large Language Models. De vooruitgang wordt momenteel belemmerd door twee primaire tekortkomingen: (1) *Data Quality Gap*: bestaande beeld-TikZ-corpora missen vaak strikte uitvoerbaarheid en betrouwbare visuele alignering; (2) *Evaluation Gap*: een gebrek aan benchmarks voor zowel structurele als visuele geloofwaardigheid. Om deze problemen aan te pakken, presenteren we een *closed-loop* raamwerk met: **SciTikZ-230K**, een grootschalige, hoogwaardige dataset van onze *Execution-Centric Data Engine* die 11 diverse wetenschappelijke disciplines beslaat; **SciTikZ-Bench**, een veelzijdige benchmark die reikt van basale geometrische constructies tot complexe hiërarchische schema's om zowel visuele geloofwaardigheid als structurele logica te evalueren. Om de reikwijdte van de *visual-code* optimalisatiemethodologie verder te verbreden, introduceren we een nieuw *Dual Self-Consistency Reinforcement Learning* optimalisatieparadigma, dat *Round-Trip Verification* gebruikt om degeneratieve code te bestraffen en de algehele zelfconsistentie te verhogen. Gesterkt door deze elementen behaalt ons getrainde model **SciTikZer-8B** state-of-the-art prestaties, en presteert het consistent beter dan propriëtaire reuzen zoals Gemini-2.5-Pro en massieve modellen zoals Qwen3-VL-235B-A22B-Instruct.

English

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.

Wetenschappelijk Grafisch Programma Synthese via Duale Zelfconsistentie Versterkend Leren

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Samenvatting

Support