RefineBench: Avaliação da Capacidade de Refinamento de Modelos de Linguagem por meio de Listas de Verificação

Resumo

Os modelos de linguagem (LLMs) podem refinar suas próprias respostas? Esta questão é cada vez mais relevante, uma vez que uma ampla gama de interações reais com utilizadores envolve pedidos de refinamento. No entanto, estudos anteriores testaram maioritariamente as capacidades de refinamento dos LLMs em tarefas verificáveis, como matemática competitiva ou raciocínio simbólico com estruturas simplificadas, enquanto os utilizadores frequentemente colocam consultas abertas e fornecem diferentes graus de feedback sobre o que desejam. O recente advento de modelos de raciocínio que exibem padrões de autorreflexão nas suas cadeias de pensamento motiva ainda mais esta questão. Para analisar isto, introduzimos o RefineBench, um *benchmark* de 1.000 problemas desafiadores em 11 domínios, emparelhado com uma estrutura de avaliação baseada em listas de verificação. Avaliamos dois modos de refinamento: (1) refinamento guiado, onde é fornecido *feedback* em linguagem natural a um LLM, e (2) autorrefinamento, onde os LLMs tentam melhorar sem orientação. No cenário de autorrefinamento, mesmo LLMs de fronteira, como o Gemini 2.5 Pro e o GPT-5, atingem pontuações de base modestas de 31,3% e 29,1%, respetivamente, e a maioria dos modelos não consegue melhorar consistentemente ao longo das iterações (por exemplo, o Gemini-2.5-Pro ganha apenas +1,8%, enquanto o DeepSeek-R1 decai -0,1%). Em contraste, no refinamento guiado, tanto os LLMs proprietários como os LLMs de grande porte de pesos abertos (>70B) conseguem aproveitar o *feedback* direcionado para refinar as respostas para níveis quase perfeitos em cinco turnos. Estas descobertas sugerem que os LLMs de fronteira necessitam de avanços para refinar as suas respostas incorretas e que o RefineBench fornece um campo de testes valioso para acompanhar o progresso.

English

Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.

RefineBench: Avaliação da Capacidade de Refinamento de Modelos de Linguagem por meio de Listas de Verificação

RefineBench: Evaluating Refinement Capability of Language Models via Checklists

Resumo

Support