RefineBench: 체크리스트를 통한 언어 모델의 정제 능력 평가
RefineBench: Evaluating Refinement Capability of Language Models via Checklists
November 27, 2025
저자: Young-Jun Lee, Seungone Kim, Byung-Kwan Lee, Minkyeong Moon, Yechan Hwang, Jong Myoung Kim, Graham Neubig, Sean Welleck, Ho-Jin Choi
cs.AI
초록
언어 모델(LM)이 자신의 응답을 자기 성찰적으로 개선할 수 있을까? 이 질문은 실제 사용자 상호작용의 상당 부분이 개선 요청을 포함하는 만큼 점점 더 중요해지고 있다. 그러나 기존 연구는 주로 경쟁 수학이나 단순화된 구조의 기호 추론과 같이 검증 가능한 과제에서 LM의 개선 능력을 테스트해왔으며, 사용자는 종종 개방형 질문을 제기하고 원하는 바에 대해 다양한 수준의 피드백을 제공한다. 최근 사고 연쇄 과정에서 자기 반성 패턴을 보이는 추론 모델의 등장은 이 문제를 더욱 부각시킨다. 이를 분석하기 위해 우리는 11개 영역에 걸친 1,000개의 난제와 체크리스트 기반 평가 프레임워크로 구성된 벤치마크인 RefineBench를 소개한다. 우리는 두 가지 개선 모드를 평가한다: (1) 언어 모델에 자연어 피드백을 제공하는 지도 개선과 (2) 지도 없이 언어 모델이 스스로 개선을 시도하는 자기 개선이다. 자기 개선 설정에서는 Gemini 2.5 Pro 및 GPT-5와 같은 최첨단 언어 모델도 각각 31.3%, 29.1%의 낮은 기준 점수를 달성하며, 대부분의 모델은 반복을 거쳐도 일관적으로 개선되지 않았다(예: Gemini-2.5-Pro는 +1.8% 향상에 그친 반면, DeepSeek-R1은 -0.1% 감소). 이와 대조적으로, 지도 개선에서는 사유 언어 모델과 대규모 오픈 웨이트 언어 모델(>70B) 모두 표적 피드백을 활용하여 5턴 이내에 응답을 거의 완벽한 수준으로 개선할 수 있었다. 이러한 결과는 최첨단 언어 모델이 잘못된 응답을 자기 개선하기 위해서는 획기적인 발전이 필요하며, RefineBench가 발전을 추적하는 데 유용한 테스트베드를 제공함을 시사한다.
English
Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.