ChatPaper.aiChatPaper

RefineBench: チェックリストによる言語モデルの推敲能力評価

RefineBench: Evaluating Refinement Capability of Language Models via Checklists

November 27, 2025
著者: Young-Jun Lee, Seungone Kim, Byung-Kwan Lee, Minkyeong Moon, Yechan Hwang, Jong Myoung Kim, Graham Neubig, Sean Welleck, Ho-Jin Choi
cs.AI

要旨

言語モデル(LM)は自らの回答を自己修正できるのか?この問いは、現実世界の多様なユーザーインタラクションに修正リクエストが含まれることが増える中、ますます重要性を増している。しかし、従来の研究は主に、競技数学や単純化された足場を用いた記号的推論など検証可能なタスクにおいてLMの修正能力をテストしてきた。一方で、ユーザーは往々にしてオープンエンドなクエリを投げかけ、求めるものについて程度の異なるフィードバックを提供する。最近では、思考連鎖において自己内省パターンを示す推論モデルの登場により、この問いへの関心がさらに高まっている。これを分析するため、我々はRefineBenchを導入する。これは11の分野にわたる1000の難問からなるベンチマークと、チェックリストに基づく評価フレームワークを組み合わせたものである。我々は2つの修正モードを評価する:(1)ガイド付き修正:LMが自然言語のフィードバックを与えられる場合、(2)自己修正:LMがガイダンスなしで改善を試みる場合。自己修正設定では、Gemini 2.5 ProやGPT-5のような最先端LMでさえ、それぞれ31.3%、29.1%という低いベースラインスコアに留まり、ほとんどのモデルは反復を経ても一貫して改善しない(例:Gemini-2.5-Proは+1.8%の向上のみ、DeepSeek-R1は-0.1%の低下)。対照的に、ガイド付き修正では、プロプライエタリLMと大規模オープンウェイトLM(>70B)の両方が、特定のフィードバックを活用して5ターン以内に回答をほぼ完璧な水準にまで修正できる。これらの発見は、最先端LMが誤った回答を自己修正するにはブレークスルーが必要であること、そしてRefineBenchが進歩を追跡するための貴重なテストベッドを提供することを示唆している。
English
Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.
PDF81December 2, 2025