Abstention-R1 : Abstention Calibrée et Clarification Post-Refus par Renforcement Verifiable

Résumé

Le réglage fin par renforcement améliore la capacité de raisonnement des grands modèles de langage, mais peut également les inciter à répondre à des requêtes insolubles en devinant ou en hallucinant des informations manquantes. Les méthodes d'abstention existantes entraînent soit les modèles à produire des refus génériques, soit les encouragent à demander des clarifications sans vérifier si celles-ci identifient les informations manquantes essentielles. Nous étudions les requêtes claires en signification mais qui ne peuvent être résolues de façon fiable à partir des informations données, et soutenons qu'un modèle fiable ne doit pas seulement s'abstenir, mais aussi expliquer ce qui manque. Nous proposons une récompense RLVR sensible aux clarifications qui, tout en récompensant les réponses correctes aux requêtes solubles, optimise conjointement l'abstention explicite et la clarification sémantiquement alignée après refus pour les requêtes insolubles. En utilisant cette récompense, nous entraînons Abstain-R1, un modèle de 3B qui améliore l'abstention et la clarification sur les requêtes insolubles tout en préservant de bonnes performances sur les requêtes solubles. Les expériences sur Abstain-Test, Abstain-QA et SelfAware montrent qu'Abstain-R1 s'améliore substantiellement par rapport à son modèle de base et atteint un comportement compétitif avec des systèmes plus grands comme DeepSeek-R1 sur les requêtes insolubles, suggérant qu'une abstention et une clarification calibrées peuvent être apprises via des récompenses vérifiables plutôt qu'émerger de la seule échelle.

English

Reinforcement fine-tuning improves the reasoning ability of large language models, but it can also encourage them to answer unanswerable queries by guessing or hallucinating missing information. Existing abstention methods either train models to produce generic refusals or encourage follow-up clarifications without verifying whether those clarifications identify the key missing information. We study queries that are clear in meaning but cannot be reliably resolved from the given information, and argue that a reliable model should not only abstain, but also explain what is missing. We propose a clarification-aware RLVR reward that, while rewarding correct answers on answerable queries, jointly optimizes explicit abstention and semantically aligned post-refusal clarification on unanswerable queries. Using this reward, we train Abstain-R1, a 3B model that improves abstention and clarification on unanswerable queries while preserving strong performance on answerable ones. Experiments on Abstain-Test, Abstain-QA, and SelfAware show that Abstain-R1 substantially improves over its base model and achieves unanswerable-query behavior competitive with larger systems including DeepSeek-R1, suggesting that calibrated abstention and clarification can be learned through verifiable rewards rather than emerging from scale alone.

Abstention-R1 : Abstention Calibrée et Clarification Post-Refus par Renforcement Verifiable

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Résumé

Support