ChatPaper.aiChatPaper

FINEREASON: 반성적 퍼즐 해결을 통한 대형 언어 모델의 의도적 추론 능력 평가 및 개선

FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving

February 27, 2025
저자: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Chaoqun Liu, Lidong Bing, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI

초록

많은 도전적인 추론 과제는 빠르고 직관적인 반응뿐만 아니라, 더 신중하고 다단계적인 접근 방식을 요구합니다. 최근 대형 언어 모델(LLM)의 발전은 빠른 반응을 특징으로 하는 "시스템 1" 방식에서 반성과 수정을 통한 문제 해결을 특징으로 하는 "시스템 2" 스타일로의 중요한 전환을 강조합니다. 그러나 현재의 벤치마크는 최종 답변의 정확도에 크게 의존하여 모델의 중간 추론 단계를 충분히 검토하지 못하고 있습니다. 이는 모델이 추론 과정에서 실수를 반성하고 수정하는 능력을 평가하는 데 실패합니다. 이러한 격차를 해소하기 위해, 우리는 LLM의 추론 능력을 세밀하게 평가하기 위한 논리 퍼즐 벤치마크인 FINEREASON을 소개합니다. 각 퍼즐은 원자 단계로 분해될 수 있어 중간 단계의 정확성을 엄격하게 검증하기에 이상적입니다. 이를 바탕으로, 우리는 모델이 현재 상황을 평가하고 다음 행동을 계획하는 방식을 종합적으로 평가하기 위한 두 가지 과제, 즉 상태 확인(state checking)과 상태 전이(state transition)를 도입했습니다. 더 넓은 연구를 지원하기 위해, 우리는 일반적인 수학 과제에서의 성능을 향상시키기 위한 퍼즐 훈련 세트도 제공합니다. 우리는 상태 확인 및 전이 데이터로 훈련된 모델이 GSM8K에서 수학 추론 능력이 최대 5.1% 향상됨을 보여줍니다.
English
Many challenging reasoning tasks require not just rapid, intuitive responses, but a more deliberate, multi-step approach. Recent progress in large language models (LLMs) highlights an important shift from the "System 1" way of quick reactions to the "System 2" style of reflection-and-correction problem solving. However, current benchmarks heavily rely on the final-answer accuracy, leaving much of a model's intermediate reasoning steps unexamined. This fails to assess the model's ability to reflect and rectify mistakes within the reasoning process. To bridge this gap, we introduce FINEREASON, a logic-puzzle benchmark for fine-grained evaluation of LLMs' reasoning capabilities. Each puzzle can be decomposed into atomic steps, making it ideal for rigorous validation of intermediate correctness. Building on this, we introduce two tasks: state checking, and state transition, for a comprehensive evaluation of how models assess the current situation and plan the next move. To support broader research, we also provide a puzzle training set aimed at enhancing performance on general mathematical tasks. We show that models trained on our state checking and transition data demonstrate gains in math reasoning by up to 5.1% on GSM8K.

Summary

AI-Generated Summary

PDF242February 28, 2025