Синтез программ для научной графики с помощью обучения с подкреплением на основе двойной самосогласованности

Аннотация

Синтез графических программ играет ключевую роль в интерпретации и редактировании визуальных данных, эффективно обеспечивая обратную разработку статических изображений в редактируемый код TikZ. Хотя TikZ является де-факто стандартом для научных схем благодаря своей программной гибкости, требование строгой пространственной точности представляет значительную проблему для мультимодальных больших языковых моделей. Прогресс в настоящее время сдерживается двумя основными пробелами: (1) Пробел в качестве данных: существующие корпуса "изображение-TikZ" часто не обладают строгой исполняемостью и надежным визуальным соответствием; (2) Пробел в оценке: отсутствие бенчмарков для оценки как структурной, так и визуальной точности. Для решения этих проблем мы представляем замкнутую систему, включающую: SciTikZ-230K — масштабный высококачественный датасет, созданный нашим механизмом Execution-Centric Data Engine и охватывающий 11 различных научных дисциплин; SciTikZ-Bench — многогранный бенчмарк, охватывающий диапазон от базовых геометрических конструкций до сложных иерархических схем для оценки как визуальной точности, так и структурной логики. Чтобы дополнительно расширить сферу методологии оптимизации визуального кода, мы вводим новую парадигму оптимизации — обучение с подкреплением на основе двойной самосогласованности, которая использует круговую верификацию для штрафования вырожденного кода и повышения общей самосогласованности. Благодаря этим решениям, наша обученная модель SciTikZer-8B демонстрирует наилучшие результаты, стабильно превосходя проприетарные гиганты, такие как Gemini-2.5-Pro, и массивные модели, такие как Qwen3-VL-235B-A22B-Instruct.

English

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.

Синтез программ для научной графики с помощью обучения с подкреплением на основе двойной самосогласованности

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Аннотация

Support