RefineBench: Оценка способности языковых моделей к доработке с помощью чек-листов

Аннотация

Способны ли языковые модели (ЯМ) самостоятельно дорабатывать свои ответы? Этот вопрос приобретает все большую актуальность, поскольку множество реальных взаимодействий с пользователями включают запросы на улучшение. Однако предыдущие исследования в основном тестировали способности ЯМ к доработке на верифицируемых задачах, таких как олимпиадная математика или символьные рассуждения с упрощенными шаблонами, тогда как пользователи часто задают открытые вопросы и предоставляют обратную связь разной степени детализации о своих пожеланиях. Недавнее появление моделей рассуждений, демонстрирующих паттерны саморефлексии в своих цепочках мыслей, дополнительно стимулирует интерес к этому вопросу. Для его анализа мы представляем RefineBench — бенчмарк, содержащий 1000 сложных задач из 11 областей, сопряженный с оценочной системой на основе контрольных списков. Мы оцениваем два режима доработки: (1) направленную доработку, когда ЯМ предоставляется обратная связь на естественном языке, и (2) само-доработку, когда ЯМ пытаются улучшить ответ без внешних указаний. В условиях само-доработки даже передовые ЯМ, такие как Gemini 2.5 Pro и GPT-5, демонстрируют скромные базовые результаты в 31,3% и 29,1% соответственно, и большинство моделей не могут последовательно улучшать результаты на протяжении итераций (например, Gemini-2.5-Pro улучшает результат лишь на +1,8%, а DeepSeek-R1 показывает снижение на -0,1%). Напротив, в режиме направленной доработки как проприетарные ЯМ, так и крупные модели с открытыми весами (>70B) способны использовать целевую обратную связь для доведения ответов до почти идеального уровня в течение пяти циклов. Эти результаты позволяют предположить, что передовым ЯМ необходимы прорывные достижения для самостоятельной доработки некорректных ответов, и что RefineBench представляет собой ценную испытательную площадку для отслеживания прогресса.

English

Can language models (LMs) self-refine their own responses? This question is increasingly relevant as a wide range of real-world user interactions involve refinement requests. However, prior studies have largely tested LMs' refinement abilities on verifiable tasks such as competition math or symbolic reasoning with simplified scaffolds, whereas users often pose open-ended queries and provide varying degrees of feedback on what they desire. The recent advent of reasoning models that exhibit self-reflection patterns in their chains-of-thought further motivates this question. To analyze this, we introduce RefineBench, a benchmark of 1,000 challenging problems across 11 domains paired with a checklist-based evaluation framework. We evaluate two refinement modes: (1) guided refinement, where an LM is provided natural language feedback, and (2) self-refinement, where LMs attempt to improve without guidance. In the self-refinement setting, even frontier LMs such as Gemini 2.5 Pro and GPT-5 achieve modest baseline scores of 31.3% and 29.1%, respectively, and most models fail to consistently improve across iterations (e.g., Gemini-2.5-Pro gains only +1.8%, while DeepSeek-R1 declines by -0.1%). By contrast, in guided refinement, both proprietary LMs and large open-weight LMs (>70B) can leverage targeted feedback to refine responses to near-perfect levels within five turns. These findings suggest that frontier LMs require breakthroughs to self-refine their incorrect responses, and that RefineBench provides a valuable testbed for tracking progress.

RefineBench: Оценка способности языковых моделей к доработке с помощью чек-листов

RefineBench: Evaluating Refinement Capability of Language Models via Checklists

Аннотация

Support