RefineBench: Evaluatie van het verfijningsvermogen van taalmodelen aan de hand van controlelijsten

Samenvatting

Kunnen taalmodelen (TM'en) hun eigen antwoorden zelf verfijnen? Deze vraag wordt steeds relevanter, aangezien een breed scala aan gebruikersinteracties in de praktijk verfijningsverzoeken omvat. Eerdere studies hebben de verfijningscapaciteiten van TM'en echter grotendeels getest op verifieerbare taken, zoals wiskundewedstrijden of symbolisch redeneren met vereenvoudigde steigers, terwijl gebruikers vaak open-eindige vragen stellen en in wisselende mate feedback geven over wat zij wensen. De recente opkomst van redeneermodellen die zelfreflectiepatronen vertonen in hun 'chains-of-thought' maakt deze vraag verder actueel. Om dit te analyseren, introduceren we RefineBench, een benchmark van 1.000 uitdagende problemen uit 11 domeinen, gekoppeld aan een op checklists gebaseerd evaluatieraamwerk. We evalueren twee verfijningsmodi: (1) begeleide verfijning, waarbij een TM feedback in natuurlijke taal krijgt, en (2) zelfverfijning, waarbij TM'en zonder begeleiding proberen te verbeteren. In de zelfverfijningssetting behalen zelfs frontier-TM'en zoals Gemini 2.5 Pro en GPT-5 bescheiden basislijnscores van respectievelijk 31,3% en 29,1%, en de meeste modellen slagen er niet in om consistent te verbeteren over iteraties heen (bijvoorbeeld: Gemini-2.5-Pro wint slechts +1,8%, terwijl DeepSeek-R1 met -0,1% daalt). Daarentegen kunnen in begeleide verfijning zowel propriëtaire TM'en als grote open-weight TM'en (>70B) gerichte feedback benutten om antwoorden binnen vijf beurten naar bijna perfecte niveaus te verfijnen. Deze bevindingen suggereren dat frontier-TM'en doorbraken nodig hebben om hun incorrecte antwoorden zelf te verfijnen, en dat RefineBench een waardevolle testomgeving biedt om de vooruitgang te volgen.

English

Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.

RefineBench: Evaluatie van het verfijningsvermogen van taalmodelen aan de hand van controlelijsten

RefineBench: Evaluating Refinement Capability of Language Models via Checklists

Samenvatting

Support