RefineBench: Bewertung der Verfeinerungsfähigkeit von Sprachmodellen mithilfe von Checklisten

papers.abstract

Können Sprachmodelle (LMs) ihre eigenen Antworten selbstständig verbessern? Diese Frage gewinnt zunehmend an Relevanz, da eine Vielzahl realer Nutzerinteraktionen Überarbeitungsanfragen umfasst. Bisherige Studien haben die Verbesserungsfähigkeiten von LMs jedoch größtenteils an überprüfbaren Aufgaben getestet, wie etwa Mathematikwettbewerben oder symbolischem Reasoning mit vereinfachten Gerüsten, während Nutzer oft offene Fragen stellen und unterschiedlich detailliertes Feedback zu ihren Wünschen geben. Das jüngste Aufkommen von Reasoning-Modellen, die Selbstreflexionsmuster in ihren Gedankenketten zeigen, motiviert diese Frage zusätzlich. Um dies zu analysieren, stellen wir RefineBench vor, einen Benchmark mit 1.000 anspruchsvollen Problemen aus 11 Domänen, kombiniert mit einem checklistenbasierten Bewertungsrahmen. Wir evaluieren zwei Verbesserungsmodi: (1) geführte Verbesserung, bei der ein LM natürliches Sprachfeedback erhält, und (2) Selbstverbesserung, bei der LMs versuchen, sich ohne Anleitung zu optimieren. Im Selbstverbesserungssetting erreichen sogar Spitzenmodelle wie Gemini 2.5 Pro und GPT-5 lediglich bescheidene Basiswerte von 31,3 % bzw. 29,1 %, und die meisten Modelle verbessern sich über Iterationen hinweg nicht konsistent (z. B. steigt Gemini-2.5-Pro nur um +1,8 %, während DeepSeek-R1 um -0,1 % abfällt). Im Gegensatz dazu können sowohl proprietäre LMs als auch große Open-Weight-Modelle (>70B) im geführten Modus gezieltes Feedback nutzen, um Antworten innerhalb von fünf Runden nahezu perfekt zu verfeinern. Diese Ergebnisse deuten darauf hin, dass Spitzen-LMs Durchbrüche benötigen, um ihre falschen Antworten selbst zu korrigieren, und dass RefineBench eine wertvolle Testumgebung zur Verfolgung der Fortschritte bietet.

English

Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.

RefineBench: Bewertung der Verfeinerungsfähigkeit von Sprachmodellen mithilfe von Checklisten

RefineBench: Evaluating Refinement Capability of Language Models via Checklists

papers.abstract

Support