ChatPaper.aiChatPaper

StepFun-Formalizer: 知識推論融合によるLLMの自動形式化可能性の解放

StepFun-Formalizer: Unlocking the Autoformalization Potential of LLMs through Knowledge-Reasoning Fusion

August 6, 2025
著者: Yutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu
cs.AI

要旨

自動形式化は、自然言語で記述された数学的命題を形式言語に翻訳することを目指す。LLM(大規模言語モデル)がこの分野の進展を加速しているものの、既存の手法は依然として精度の低さに悩まされている。効果的な自動形式化には、形式言語のドメイン知識を包括的に習得する能力と、自然言語の問題理解および非形式的-形式的な整合性を推論する能力という2つの重要な能力が必要である。前者がなければ、モデルは正しい形式的対象を特定できず、後者がなければ、現実世界の文脈を解釈し、それを正確に形式的表現にマッピングすることが困難となる。これらの課題に対処するため、我々はThinkingFを提案する。これは、両方の能力を向上させるデータ合成およびトレーニングパイプラインである。まず、形式知識が豊富な大規模な例を蒸留・選択して構築したデータセットと、専門家が設計したテンプレートに基づいて非形式的から形式的な推論軌跡を生成したデータセットを作成する。次に、これらのデータセットを用いてSFT(Supervised Fine-Tuning)とRLVR(Reinforcement Learning with Value-based Rewards)を適用し、両方の能力をさらに融合・洗練させる。その結果、7Bおよび32Bのモデルは、包括的な形式知識と強力な非形式的-形式的推論能力を兼ね備えた。特に、StepFun-Formalizer-32Bは、FormalMATH-Liteで40.5%、ProverBenchで26.7%のSOTA BEq@1スコアを達成し、これまでの汎用モデルおよび専門モデルをすべて上回った。
English
Autoformalization aims to translate natural-language mathematical statements into a formal language. While LLMs have accelerated progress in this area, existing methods still suffer from low accuracy. We identify two key abilities for effective autoformalization: comprehensive mastery of formal-language domain knowledge, and reasoning capability of natural language problem understanding and informal-formal alignment. Without the former, a model cannot identify the correct formal objects; without the latter, it struggles to interpret real-world contexts and map them precisely into formal expressions. To address these gaps, we introduce ThinkingF, a data synthesis and training pipeline that improves both abilities. First, we construct two datasets: one by distilling and selecting large-scale examples rich in formal knowledge, and another by generating informal-to-formal reasoning trajectories guided by expert-designed templates. We then apply SFT and RLVR with these datasets to further fuse and refine the two abilities. The resulting 7B and 32B models exhibit both comprehensive formal knowledge and strong informal-to-formal reasoning. Notably, StepFun-Formalizer-32B achieves SOTA BEq@1 scores of 40.5% on FormalMATH-Lite and 26.7% on ProverBench, surpassing all prior general-purpose and specialized models.
PDF23August 7, 2025