ChatPaper.aiChatPaper

CriticLean: 수학적 형식화를 위한 비평가 지도 강화 학습

CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization

July 8, 2025
저자: Zhongyuan Peng, Yifan Yao, Kaijing Ma, Shuyue Guo, Yizhe Li, Yichi Zhang, Chenchen Zhang, Yifan Zhang, Zhouliang Yu, Luming Li, Minghao Liu, Yihang Xia, Jiawei Shen, Yuchen Wu, Yixin Cao, Zhaoxiang Zhang, Wenhao Huang, Jiaheng Liu, Ge Zhang
cs.AI

초록

자연어로 표현된 수학적 명제를 형식적이고 실행 가능한 코드로 번역하는 것은 자동화된 정리 증명에서 근본적인 과제입니다. 기존 연구는 생성과 컴파일 성공에 초점을 맞추었지만, 생성된 형식화가 원래 문제의 의미적 의도를 진정으로 반영하는지 평가하는 비평 단계에는 거의 주의를 기울이지 않았습니다. 본 논문에서는 비평의 역할을 수동적인 검증자에서 능동적인 학습 구성 요소로 격상시키는 새로운 비평 주도 강화 학습 프레임워크인 CriticLean을 소개합니다. 구체적으로, 먼저 Lean 4 형식화의 의미적 충실도를 엄격히 평가하기 위해 지도 미세 조정과 강화 학습을 통해 훈련된 CriticLeanGPT를 제안합니다. 그런 다음, 모델이 의미적으로 올바른 형식화와 잘못된 형식화를 구별하는 능력을 측정하기 위해 설계된 벤치마크인 CriticLeanBench를 소개하고, 우리가 훈련한 CriticLeanGPT 모델이 강력한 오픈소스 및 클로즈드소스 베이스라인을 크게 능가할 수 있음을 보여줍니다. CriticLean 프레임워크를 기반으로, 우리는 풍부한 도메인 다양성, 광범위한 난이도 범위, 그리고 인간 평가를 기반으로 한 높은 정확성을 보여주는 285K개 이상의 문제로 구성된 FineLeanCorpus 데이터셋을 구축했습니다. 전반적으로, 우리의 연구 결과는 신뢰할 수 있는 형식화를 생산하기 위해 비평 단계를 최적화하는 것이 필수적임을 강조하며, CriticLean이 형식적 수학적 추론의 미래 발전에 유용한 통찰력을 제공하기를 바랍니다.
English
Translating natural language mathematical statements into formal, executable code is a fundamental challenge in automated theorem proving. While prior work has focused on generation and compilation success, little attention has been paid to the critic phase-the evaluation of whether generated formalizations truly capture the semantic intent of the original problem. In this paper, we introduce CriticLean, a novel critic-guided reinforcement learning framework that elevates the role of the critic from a passive validator to an active learning component. Specifically, first, we propose the CriticLeanGPT, trained via supervised fine-tuning and reinforcement learning, to rigorously assess the semantic fidelity of Lean 4 formalizations. Then, we introduce CriticLeanBench, a benchmark designed to measure models' ability to distinguish semantically correct from incorrect formalizations, and demonstrate that our trained CriticLeanGPT models can significantly outperform strong open- and closed-source baselines. Building on the CriticLean framework, we construct FineLeanCorpus, a dataset comprising over 285K problems that exhibits rich domain diversity, broad difficulty coverage, and high correctness based on human evaluation. Overall, our findings highlight that optimizing the critic phase is essential for producing reliable formalizations, and we hope our CriticLean will provide valuable insights for future advances in formal mathematical reasoning.
PDF381July 9, 2025