科学的グラフィックスプログラム合成における二重自己整合性強化学習
Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning
April 7, 2026
著者: Juekai Lin, Yun Zhu, Honglin Lin, Sijing Li, Tianwei Lin, Zheng Liu, Xiaoyang Wang, Wenqiao Zhang, Lijun Wu
cs.AI
要旨
グラフィックスプログラム合成は、視覚的データの解釈と編集において極めて重要であり、静的なビジュアルを編集可能なTikZコードに逆コンパイルすることを効果的に促進する。TikZはプログラム的な柔軟性から科学分野の図表における事実上の標準となっているが、厳密な空間精度を要求するため、マルチモーダル大規模言語モデルにとって重大な課題となっている。現在、進展は主に二つのギャップによって阻害されている:(1) データ品質のギャップ:既存の画像-TikZコーパスは、厳密な実行可能性と信頼性の高い視覚的一致を欠くことが多い。(2) 評価のギャップ:構造的忠実度と視覚的忠実度の両方を評価するベンチマークが不足している。これらの問題に対処するため、我々は閉ループフレームワークを提案する。その中核をなすのは、11の多様な科学分野を網羅する我々の実行中心データエンジンから得られた大規模高品質データセット「SciTikZ-230K」、および基本的な幾何学構造から複雑な階層的図式までを範囲とし、視覚的忠実度と構造的論理の両方を評価する多面的ベンチマーク「SciTikZ-Bench」である。さらに、視覚的コード最適化手法の範囲を拡大するため、新たな二重自己無矛盾性強化学習最適化パラダイムを導入する。これは、ラウンドトリップ検証を利用して退化したコードをペナルティし、全体的な自己無矛盾性を高めるものである。これらの要素によって強化された我々の訓練済みモデル「SciTikZer-8B」は、Gemini-2.5-Proのような専有の大規模モデルや、Qwen3-VL-235B-A22B-Instructのような超巨大モデルを一貫して上回り、最先端の性能を達成した。
English
Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.