RefineBench: Evaluación de la Capacidad de Refinamiento de Modelos de Lenguaje mediante Listas de Verificación

Resumen

¿Pueden los modelos de lenguaje (LM) autorrefinar sus propias respuestas? Esta pregunta es cada vez más relevante ya que una amplia gama de interacciones con usuarios del mundo real implica solicitudes de refinamiento. Sin embargo, estudios previos han evaluado principalmente las capacidades de refinamiento de los LM en tareas verificables, como matemáticas de competición o razonamiento simbólico con andamiajes simplificados, mientras que los usuarios a menudo plantean consultas abiertas y proporcionan distintos grados de retroalimentación sobre lo que desean. La reciente aparición de modelos de razonamiento que exhiben patrones de autorreflexión en sus cadenas de pensamiento motiva aún más esta cuestión. Para analizarlo, presentamos RefineBench, un benchmark de 1.000 problemas desafiantes en 11 dominios, junto con un marco de evaluación basado en listas de verificación. Evaluamos dos modos de refinamiento: (1) refinamiento guiado, donde se proporciona retroalimentación en lenguaje natural a un LM, y (2) autorrefinamiento, donde los LM intentan mejorar sin guía. En el entorno de autorrefinamiento, incluso LM de vanguardia como Gemini 2.5 Pro y GPT-5 obtienen puntuaciones de referencia modestas del 31.3% y 29.1%, respectivamente, y la mayoría de los modelos no logran mejorar consistentemente entre iteraciones (por ejemplo, Gemini-2.5-Pro gana solo +1.8%, mientras que DeepSeek-R1 disminuye -0.1%). Por el contrario, en el refinamiento guiado, tanto los LM propietarios como los LM de gran tamaño de peso abierto (>70B) pueden aprovechar la retroalimentación específica para refinar las respuestas hasta niveles casi perfectos en cinco turnos. Estos hallazgos sugieren que los LM de vanguardia requieren avances fundamentales para autorrefinar sus respuestas incorrectas, y que RefineBench proporciona un banco de pruebas valioso para rastrear el progreso.

English

Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.

RefineBench: Evaluación de la Capacidad de Refinamiento de Modelos de Lenguaje mediante Listas de Verificación

RefineBench: Evaluating Refinement Capability of Language Models via Checklists

Resumen

Support