RefineBench : Évaluation de la capacité de raffinement des modèles linguistiques à l'aide de listes de contrôle

papers.abstract

Les modèles de langage (LM) peuvent-ils affiner leurs propres réponses ? Cette question devient de plus en plus pertinente étant donné qu'une grande variété d'interactions utilisateurs réelles impliquent des demandes de raffinement. Cependant, les études antérieures ont largement testé les capacités de raffinement des LM sur des tâches vérifiables, comme les mathématiques de compétition ou le raisonnement symbolique avec des échafaudages simplifiés, alors que les utilisateurs posent souvent des questions ouvertes et fournissent des retours d'information à divers degrés sur ce qu'ils souhaitent. L'émergence récente de modèles de raisonnement qui présentent des schémas d'autoréflexion dans leurs chaînes de pensée motive davantage cette question. Pour analyser ce phénomène, nous présentons RefineBench, un benchmark de 1 000 problèmes complexes répartis sur 11 domaines, couplé à un cadre d'évaluation basé sur une liste de contrôle. Nous évaluons deux modes de raffinement : (1) le raffinement guidé, où un LM reçoit un retour en langage naturel, et (2) l'auto-raffinement, où les LM tentent de s'améliorer sans guidance. Dans le cadre de l'auto-raffinement, même les LM de pointe tels que Gemini 2.5 Pro et GPT-5 n'obtiennent que des scores de base modestes de 31,3 % et 29,1 % respectivement, et la plupart des modèles ne parviennent pas à s'améliorer de manière constante au fil des itérations (par exemple, Gemini-2.5-Pro ne gagne que +1,8 %, tandis que DeepSeek-R1 régresse de -0,1 %). En revanche, dans le raffinement guidé, les LM propriétaires et les LM open-weight de grande taille (>70B) peuvent exploiter un retour ciblé pour affiner leurs réponses jusqu'à des niveaux quasi parfaits en cinq tours. Ces résultats suggèrent que des avancées majeures sont nécessaires pour que les LM de pointe puissent auto-raffiner leurs réponses incorrectes, et que RefineBench constitue un banc d'essai précieux pour suivre les progrès.

English

Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.

RefineBench : Évaluation de la capacité de raffinement des modèles linguistiques à l'aide de listes de contrôle

RefineBench: Evaluating Refinement Capability of Language Models via Checklists

papers.abstract

Support