Abstain-R1: Gekalibreerde Onthouding en Verduidelijking na Weigering via Verifieerbare RL

Samenvatting

Versterkingsfijnafstemming verbetert het redeneervermogen van grote taalmodelen, maar kan hen er ook toe aanzetten om onbeantwoordbare vragen te beantwoorden door te gissen of ontbrekende informatie te hallucineren. Bestaande onthoudingsmethoden trainen modellen óf om generieke weigeringen te produceren, óf moedigen vervolgverduidelijkingen aan zonder te verifiëren of die verduidelijkingen de ontbrekende essentiële informatie identificeren. Wij bestuderen vragen die duidelijk van betekenis zijn, maar niet betrouwbaar kunnen worden opgelost met de gegeven informatie, en beargumenteren dat een betrouwbaar model niet alleen moet afzien van antwoorden, maar ook moet uitleggen wat ontbreekt. Wij stellen een clarificatiebewuste RLVR-beloning voor die, terwijl correcte antwoorden op beantwoordbare vragen worden beloond, gezamenlijk expliciete onthouding en semantisch uitgelijnde verduidelijking na weigering optimaliseert voor onbeantwoordbare vragen. Met deze beloning trainen wij Abstain-R1, een 3B-model dat de onthouding en verduidelijking voor onbeantwoordbare queries verbetert, terwijl het sterke prestaties op beantwoordbare queries behoudt. Experimenten op Abstain-Test, Abstain-QA en SelfAware tonen aan dat Abstain-R1 aanzienlijk verbetert ten opzichte van het basismodel en gedrag bij onbeantwoordbare queries vertoont dat competitief is met grotere systemen, waaronder DeepSeek-R1. Dit suggereert dat gekalibreerde onthouding en verduidelijking kunnen worden aangeleerd via verifieerbare beloningen, in plaats van uitsluitend voort te komen uit schaal.

English

Reinforcement fine-tuning improves the reasoning ability of large language models, but it can also encourage them to answer unanswerable queries by guessing or hallucinating missing information. Existing abstention methods either train models to produce generic refusals or encourage follow-up clarifications without verifying whether those clarifications identify the key missing information. We study queries that are clear in meaning but cannot be reliably resolved from the given information, and argue that a reliable model should not only abstain, but also explain what is missing. We propose a clarification-aware RLVR reward that, while rewarding correct answers on answerable queries, jointly optimizes explicit abstention and semantically aligned post-refusal clarification on unanswerable queries. Using this reward, we train Abstain-R1, a 3B model that improves abstention and clarification on unanswerable queries while preserving strong performance on answerable ones. Experiments on Abstain-Test, Abstain-QA, and SelfAware show that Abstain-R1 substantially improves over its base model and achieves unanswerable-query behavior competitive with larger systems including DeepSeek-R1, suggesting that calibrated abstention and clarification can be learned through verifiable rewards rather than emerging from scale alone.

Abstain-R1: Gekalibreerde Onthouding en Verduidelijking na Weigering via Verifieerbare RL

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Samenvatting

Support