RefineBench: Valutazione della Capacità di Raffinamento dei Modelli Linguistici tramite Liste di Controllo

Abstract

I modelli linguistici (LM) possono affinare autonomamente le proprie risposte? Questa domanda è sempre più rilevante poiché una vasta gamma di interazioni reali con gli utenti implica richieste di perfezionamento. Tuttavia, gli studi precedenti hanno testato per lo più le capacità di raffinamento degli LM su compiti verificabili, come la matematica da competizione o il ragionamento simbolico con impalcature semplificate, mentre gli utenti pongono spesso query aperte e forniscono feedback di vario grado su ciò che desiderano. La recente comparsa di modelli di ragionamento che mostrano pattern di auto-riflessione nelle loro catene di pensiero motiva ulteriormente questa questione. Per analizzarla, introduciamo RefineBench, un benchmark di 1.000 problemi complessi in 11 domini, abbinato a un framework di valutazione basato su checklist. Valutiamo due modalità di raffinamento: (1) raffinamento guidato, in cui a un LM viene fornito un feedback in linguaggio naturale, e (2) auto-raffinamento, in cui gli LM tentano di migliorare senza guida. Nell'ambito dell'auto-raffinamento, persino LM all'avanguardia come Gemini 2.5 Pro e GPT-5 raggiungono punteggi baseline modesti, rispettivamente del 31,3% e del 29,1%, e la maggior parte dei modelli non riesce a migliorare in modo coerente tra le iterazioni (ad esempio, Gemini-2.5-Pro guadagna solo +1,8%, mentre DeepSeek-R1 registra un calo di -0,1%). Al contrario, nel raffinamento guidato, sia i LM proprietari che i LM open-weight di grandi dimensioni (>70B) possono sfruttare feedback mirati per affinare le risposte a livelli quasi perfetti entro cinque turni. Questi risultati suggeriscono che gli LM all'avanguardia richiedono innovazioni decisive per affinare autonomamente le proprie risposte errate e che RefineBench fornisce un banco di prova prezioso per monitorare i progressi.

English

Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.

RefineBench: Valutazione della Capacità di Raffinamento dei Modelli Linguistici tramite Liste di Controllo

RefineBench: Evaluating Refinement Capability of Language Models via Checklists

Abstract

Support