이중 자기 일관성 강화 학습을 통한 과학 그래픽 프로그램 합성
Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning
April 7, 2026
저자: Juekai Lin, Yun Zhu, Honglin Lin, Sijing Li, Tianwei Lin, Zheng Liu, Xiaoyang Wang, Wenqiao Zhang, Lijun Wu
cs.AI
초록
그래픽 프로그램 합성은 시각 데이터를 해석하고 편집하는 데 핵심적인 역할을 하며, 정적 시각 자료를 편집 가능한 TikZ 코드로 역공학하는 과정을 효과적으로 용이하게 합니다. TikZ는 프로그램적 유연성으로 인해 과학적 개략도 분야에서 사실상 표준으로 자리 잡았지만, 엄격한 공간 정밀도를 요구하기 때문에 멀티모달 대규모 언어 모델에게는 상당한 과제로 작용합니다. 현재 두 가지 주요 격차로 인해 발전이 저해되고 있습니다: (1) 데이터 품질 격차: 기존 이미지-TikZ 말뭉치는 엄격한 실행 가능성과 신뢰할 수 있는 시각적 정렬이 부족한 경우가 많으며, (2) 평가 격차: 구조적 및 시각적 정확도를 모두 평가할 수 있는 벤치마크가 부족합니다. 이를 해결하기 위해 우리는 폐쇄형 루프 프레임워크를 제시합니다. 이 프레임워크는 11개의 다양한 과학 분야를 아우르는 Execution-Centric 데이터 엔진을 통해 구축된 대규모 고품질 데이터셋인 SciTikZ-230K와, 기본 기하학적 구조부터 복잡한 계층적 개략도에 이르기까지 시각적 정확도와 구조적 논리를 모두 평가하는 다각적 벤치마크인 SciTikZ-Bench를 핵심 요소로 합니다. 더 나아가 시각-코드 최적화 방법론의 범위를 확장하기 위해, Round-Trip Verification을 활용하여 퇴화된 코드를 억제하고 전반적인 자기 일관성을 향상시키는 새로운 이중 자기 일관성 강화 학습 최적화 패러다임을 도입합니다. 이러한 요소들을 바탕으로 훈련된 우리의 모델 SciTikZer-8B는 최첨단 성능을 달성하여 Gemini-2.5-Pro와 같은 독점 대형 모델이나 Qwen3-VL-235B-A22B-Instruct와 같은 대규모 모델을 꾸준히 능가합니다.
English
Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.