Abstain-R1: Калиброванное воздержание и уточнение после отказа с помощью верифицируемого обучения с подкреплением

Аннотация

Подкрепляющее тонкое настройка улучшает способность больших языковых моделей к рассуждению, но также может побуждать их отвечать на неразрешимые запросы путем угадывания или галлюцинирования недостающей информации. Существующие методы воздержания либо обучают модели давать универсальные отказы, либо поощряют уточняющие вопросы без проверки того, выявляют ли эти уточнения ключевую недостающую информацию. Мы исследуем запросы, которые ясны по смыслу, но не могут быть надежно разрешены на основе предоставленной информации, и утверждаем, что надежная модель должна не только воздерживаться от ответа, но и объяснять, чего именно не хватает. Мы предлагаем уточняющую награду RLVR, которая, поощряя правильные ответы на разрешимые запросы, совместно оптимизирует явное воздержание и семантически выверенное уточнение после отказа для неразрешимых запросов. Используя эту награду, мы обучаем модель Abstain-R1 объемом 3B параметров, которая улучшает воздержание и уточнение для неразрешимых запросов, сохраняя при этом высокую производительность на разрешимых. Эксперименты на Abstain-Test, Abstain-QA и SelfAware показывают, что Abstain-R1 существенно превосходит базовую модель и демонстрирует поведение на неразрешимых запросах, сопоставимое с более крупными системами, включая DeepSeek-R1, что свидетельствует: калиброванное воздержание и уточнение могут быть изучены через верифицируемые награды, а не возникать исключительно за счет масштаба.

English

Reinforcement fine-tuning improves the reasoning ability of large language models, but it can also encourage them to answer unanswerable queries by guessing or hallucinating missing information. Existing abstention methods either train models to produce generic refusals or encourage follow-up clarifications without verifying whether those clarifications identify the key missing information. We study queries that are clear in meaning but cannot be reliably resolved from the given information, and argue that a reliable model should not only abstain, but also explain what is missing. We propose a clarification-aware RLVR reward that, while rewarding correct answers on answerable queries, jointly optimizes explicit abstention and semantically aligned post-refusal clarification on unanswerable queries. Using this reward, we train Abstain-R1, a 3B model that improves abstention and clarification on unanswerable queries while preserving strong performance on answerable ones. Experiments on Abstain-Test, Abstain-QA, and SelfAware show that Abstain-R1 substantially improves over its base model and achieves unanswerable-query behavior competitive with larger systems including DeepSeek-R1, suggesting that calibrated abstention and clarification can be learned through verifiable rewards rather than emerging from scale alone.

Abstain-R1: Калиброванное воздержание и уточнение после отказа с помощью верифицируемого обучения с подкреплением

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Аннотация

Support