SATQuest: 논리적 추론 평가 및 LLM 미세 조정 강화를 위한 검증기
SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs
August 31, 2025
저자: Yanxiao Zhao, Yaqian Li, Zihao Bo, Rinyoichi Takezoe, Haojia Hui, Mo Guang, Lei Ren, Xiaolin Qin, Kaiwen Long
cs.AI
초록
최근 대규모 언어 모델(LLM)의 발전은 놀라운 일반 추론 능력을 보여주고 있습니다. 그러나 이러한 추론 능력을 체계적으로 평가하고 향상시키는 것은 세밀한 분석을 위한 통제 가능하고 확장 가능한 도구의 부족으로 인해 어려운 과제입니다. 기존의 벤치마크와 데이터셋은 다차원적이고 체계적인 분석 및 훈련을 위한 필요한 변수 통제가 부족하거나, 문제 유형과 형식이 제한적입니다. 이러한 한계를 해결하기 위해, 우리는 CNF(Conjunctive Normal Form) 인스턴스에서 직접 다양한 만족 가능성 기반 논리 추론 문제를 생성하여 LLM의 논리 추론을 평가하고 향상시키기 위한 체계적인 검증 도구인 SATQuest를 소개합니다. SATQuest는 인스턴스 규모, 문제 유형, 질문 형식이라는 세 가지 직교 차원을 따라 이러한 문제를 구조화하며, 무작위화된 SAT 기반 문제 생성과 PySAT를 통한 객관적 답변 검증을 사용합니다. 이 설계는 암기 문제를 완화하고, 추론 성능에 대한 미묘한 통찰을 제공하며, 효과적인 강화 미세 조정을 가능하게 합니다. SATQuest를 사용한 다양한 LLM에 대한 광범위한 평가는 특히 익숙한 수학적 형식을 넘어 일반화하는 데 있어서의 심각한 한계를 확인했습니다. 더 나아가, SATQuest 보상을 통한 강화 미세 조정이 특정 작업 성능을 크게 개선하고 더 복잡한 인스턴스로 일반화하는 동시에, 형식 간 적응에서의 남은 과제를 강조한다는 것을 보여줍니다. 이러한 시연을 통해, 우리는 SATQuest가 LLM 논리 추론을 발전시키기 위한 기초 도구로서의 잠재력과 가치 있는 출발점임을 입증합니다.
English
Recent advances in Large Language Models (LLMs) have demonstrated remarkable
general reasoning capabilities. However, systematically evaluating and
enhancing these reasoning capabilities is challenging due to the lack of
controllable and scalable tools for fine-grained analysis. Existing benchmarks
and datasets often lack the necessary variable control for multi-dimensional,
systematic analysis and training, or have narrow problem types and formats. To
address these limitations, we introduce SATQuest, a systematic verifier
designed to evaluate and enhance logical reasoning in LLMs by generating
diverse, Satisfiability-based logical reasoning problems directly from
Conjunctive Normal Form (CNF) instances. SATQuest structures these problems
along three orthogonal dimensions: instance scale, problem type, and question
format, employing randomized, SAT-based problem generation and objective answer
verification via PySAT. This design mitigates memorization issues, allows for
nuanced insights into reasoning performance, and enables effective
reinforcement fine-tuning. Our extensive evaluation of various LLMs using
SATQuest identified significant limitations in their logical reasoning,
particularly in generalizing beyond familiar mathematical formats. Furthermore,
we show that reinforcement fine-tuning with SATQuest rewards substantially
improves targeted task performance and generalizes to more complex instances,
while highlighting remaining challenges in cross-format adaptation. Through
these demonstrations, we showcase SATQuest's potential as a foundational tool
and a valuable starting point for advancing LLM logical reasoning.