Astensione-R1: Astensione Calibrata e Chiarificazione Post-Rifiuto tramite RL Verificabile

Abstract

L'ottimizzazione mediante rinforzo migliora le capacità di ragionamento dei grandi modelli linguistici, ma può anche spingerli a rispondere a interrogativi irrisolvibili indovinando o allucinando informazioni mancanti. I metodi di astensione esistenti addestrano i modelli a produrre rifiuti generici o incoraggiano chiarimenti successivi senza verificare se questi identificano le informazioni chiave mancanti. Studiamo interrogativi chiari nel significato ma non risolvibili in modo affidabile con le informazioni fornite, e sosteniamo che un modello affidabile non dovrebbe solo astenersi, ma anche spiegare cosa manca. Proponiamo una ricompensa RLVR (Reinforcement Learning with Verifiable Refusals) che, premiando le risposte corrette per query risolvibili, ottimizza congiuntamente l'astensione esplicita e i chiarimenti semanticamente allineati post-rifiuto per quelle irrisolvibili. Utilizzando questa ricompensa, addestriamo Abstain-R1, un modello da 3B che migliora l'astensione e la chiarificazione per query irrisolvibili preservando le prestazioni su quelle risolvibili. Esperimenti su Abstain-Test, Abstain-QA e SelfAware mostrano che Abstain-R1 supera sostanzialmente il suo modello base e raggiunge un comportamento competitivo con sistemi più grandi come DeepSeek-R1 per query irrisolvibili, suggerendo che un'astensione calibrata e la chiarificazione possano essere apprese attraverso ricompense verificabili anziché emergere solo dalla scala.

English

Reinforcement fine-tuning improves the reasoning ability of large language models, but it can also encourage them to answer unanswerable queries by guessing or hallucinating missing information. Existing abstention methods either train models to produce generic refusals or encourage follow-up clarifications without verifying whether those clarifications identify the key missing information. We study queries that are clear in meaning but cannot be reliably resolved from the given information, and argue that a reliable model should not only abstain, but also explain what is missing. We propose a clarification-aware RLVR reward that, while rewarding correct answers on answerable queries, jointly optimizes explicit abstention and semantically aligned post-refusal clarification on unanswerable queries. Using this reward, we train Abstain-R1, a 3B model that improves abstention and clarification on unanswerable queries while preserving strong performance on answerable ones. Experiments on Abstain-Test, Abstain-QA, and SelfAware show that Abstain-R1 substantially improves over its base model and achieves unanswerable-query behavior competitive with larger systems including DeepSeek-R1, suggesting that calibrated abstention and clarification can be learned through verifiable rewards rather than emerging from scale alone.

Astensione-R1: Astensione Calibrata e Chiarificazione Post-Rifiuto tramite RL Verificabile

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Abstract

Support