Sintesi di Programmi Grafici Scientifici tramite Apprendimento per Rinforzo a Doppia Auto-Consistenza

Abstract

La sintesi grafica programmatica è fondamentale per interpretare e modificare dati visivi, facilitando efficacemente il reverse engineering di elementi visivi statici in codice TikZ modificabile. Sebbene TikZ sia lo standard de facto per gli schemi scientifici grazie alla sua flessibilità programmatica, il suo requisito di rigida precisione spaziale rappresenta una sfida significativa per i Modelli Linguistici Multimodali di Grande Dimensione. Il progresso è attualmente ostacolato da due lacune primarie: (1) Lacuna nella Qualità dei Dati: i corpora esistenti immagine-TikZ spesso mancano di eseguibilità rigorosa e di un allineamento visivo affidabile; (2) Lacuna nella Valutazione: carenza di benchmark per la fedeltà sia strutturale che visiva. Per affrontare questi problemi, presentiamo un framework a ciclo chiuso che include: SciTikZ-230K, un dataset su larga scala e di alta qualità proveniente dal nostro Execution-Centric Data Engine che copre 11 discipline scientifiche diverse; SciTikZ-Bench, un benchmark multifacciale che spazia da costrutti geometrici di base a schemi gerarchici intricati per valutare sia la fedeltà visiva che la logica strutturale. Per ampliare ulteriormente la metodologia di ottimizzazione del codice visivo, introduciamo un nuovo paradigma di ottimizzazione basato sul Dual Self-Consistency Reinforcement Learning, che utilizza la Round-Trip Verification per penalizzare il codice degenerato e potenziare l'auto-consistenza complessiva. Grazie a questi elementi, il nostro modello addestrato SciTikZer-8B raggiunge prestazioni all'avanguardia, superando costantemente colossi proprietari come Gemini-2.5-Pro e modelli massicci come Qwen3-VL-235B-A22B-Instruct.

English

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.

Sintesi di Programmi Grafici Scientifici tramite Apprendimento per Rinforzo a Doppia Auto-Consistenza

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Abstract

Support