Abstain-R1: Kalibriertes Unterlassen und Nach-Verweigerungs-Klärung durch verifizierbares bestärkendes Lernen

Zusammenfassung

Reinforcement Fine-Tuning verbessert die reasoning-Fähigkeiten großer Sprachmodelle, kann diese jedoch auch dazu verleiten, unbeantwortbare Anfragen durch Raten oder Halluzinieren fehlender Informationen zu beantworten. Bestehende Enthaltungsmethoden trainieren Modelle entweder darauf, generische Ablehnungen zu produzieren oder ermutigen zu Nachfragen, ohne zu überprüfen, ob diese Klärungsfragen die entscheidenden fehlenden Informationen identifizieren. Wir untersuchen Anfragen, die in ihrer Bedeutung klar sind, aber nicht zuverlässig aus den gegebenen Informationen beantwortet werden können, und argumentieren, dass ein zuverlässiges Modell sich nicht nur enthalten, sondern auch erklären sollte, was fehlt. Wir schlagen eine klärungsbewusste RLVR-Belohnung vor, die bei beantwortbaren Anfragen korrekte Antworten belohnt und gleichzeitig bei unbeantwortbaren Anfragen explizite Enthaltung und semantisch abgestimmte Klärungsfragen nach der Ablehnung gemeinsam optimiert. Mit dieser Belohnung trainieren wir Abstain-R1, ein 3B-Modell, das die Enthaltung und Klärung bei unbeantwortbaren Anfragen verbessert und gleichzeitig eine starke Leistung bei beantwortbaren Anfragen beibehält. Experimente mit Abstain-Test, Abstain-QA und SelfAware zeigen, dass Abstain-R1 sich deutlich gegenüber seinem Basismodell verbessert und ein Verhalten bei unbeantwortbaren Anfragen erreicht, das mit größeren Systemen wie DeepSeek-R1 konkurrieren kann. Dies deutet darauf hin, dass kalibrierte Enthaltung und Klärung durch überprüfbare Belohnungen erlernt werden können und nicht allein durch Skalierung entstehen müssen.

English

Reinforcement fine-tuning improves the reasoning ability of large language models, but it can also encourage them to answer unanswerable queries by guessing or hallucinating missing information. Existing abstention methods either train models to produce generic refusals or encourage follow-up clarifications without verifying whether those clarifications identify the key missing information. We study queries that are clear in meaning but cannot be reliably resolved from the given information, and argue that a reliable model should not only abstain, but also explain what is missing. We propose a clarification-aware RLVR reward that, while rewarding correct answers on answerable queries, jointly optimizes explicit abstention and semantically aligned post-refusal clarification on unanswerable queries. Using this reward, we train Abstain-R1, a 3B model that improves abstention and clarification on unanswerable queries while preserving strong performance on answerable ones. Experiments on Abstain-Test, Abstain-QA, and SelfAware show that Abstain-R1 substantially improves over its base model and achieves unanswerable-query behavior competitive with larger systems including DeepSeek-R1, suggesting that calibrated abstention and clarification can be learned through verifiable rewards rather than emerging from scale alone.

Abstain-R1: Kalibriertes Unterlassen und Nach-Verweigerungs-Klärung durch verifizierbares bestärkendes Lernen

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Zusammenfassung

Support