Wissenschaftliche Grafikprogrammsynthese durch duale Selbstkonsistenz-Verstärkungslernen

Zusammenfassung

Die Synthese von Grafikprogrammen ist entscheidend für die Interpretation und Bearbeitung visueller Daten, da sie effektiv das Reverse-Engineering statischer Grafiken in editierbaren TikZ-Code ermöglicht. Obwohl Tikz aufgrund seiner programmatischen Flexibilität der De-facto-Standard für wissenschaftliche Schemata ist, stellt seine Anforderung an rigoröse räumliche Präzision eine erhebliche Herausforderung für multimodale große Sprachmodelle dar. Der Fortschritt wird derzeit durch zwei Hauptdefizite gehemmt: (1) Datenqualitätslücke: bestehende Bild-TikZ-Korpora weisen oft mangelnde strikte Ausführbarkeit und zuverlässige visuelle Übereinstimmung auf; (2) Evaluierungslücke: das Fehlen von Benchmarks für sowohl strukturelle als auch visuelle Treue. Um diese zu adressieren, präsentieren wir ein Closed-Loop-Framework mit: SciTikZ-230K, einem groß angelegten, hochwertigen Datensatz aus unserer exekutionszentrischen Daten-Engine, der 11 diverse wissenschaftliche Disziplinen abdeckt; SciTikZ-Bench, einem vielseitigen Benchmark, der von einfachen geometrischen Konstrukten bis hin zu komplexen hierarchischen Schemata reicht, um sowohl visuelle Treue als auch strukturelle Logik zu bewerten. Um den Umfang der Optimierungsmethodik für visuellen Code weiter zu vergrößern, führen wir ein neuartiges Dual-Self-Consistency Reinforcement Learning-Optimierungsparadigma ein, das Round-Trip-Verification nutzt, um degenerierten Code zu bestrafen und die allgemeine Selbstkonsistenz zu steigern. Durch diese Errungenschaften erreicht unser trainiertes Modell SciTikZer-8B state-of-the-art Leistung und übertrifft durchgängig proprietäre Giganten wie Gemini-2.5-Pro und massive Modelle wie Qwen3-VL-235B-A22B-Instruct.

English

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.

Wissenschaftliche Grafikprogrammsynthese durch duale Selbstkonsistenz-Verstärkungslernen

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Zusammenfassung

Support