Abstain-R1: Abstención Calibrada y Aclaración Post-Rechazo mediante RL Verificable

Resumen

El ajuste fino por refuerzo mejora la capacidad de razonamiento de los modelos de lenguaje grandes, pero también puede incentivarlos a responder consultas irresolubles adivinando o alucinando información faltante. Los métodos de abstención existentes o bien entrenan a los modelos para producir rechazos genéricos o bien fomentan aclaraciones de seguimiento sin verificar si dichas aclaraciones identifican la información clave que falta. Estudiamos consultas que son claras en significado pero que no pueden resolverse de manera confiable con la información dada, y argumentamos que un modelo confiable no solo debe abstenerse, sino también explicar qué información falta. Proponemos una recompensa RLVR consciente de la aclaración que, mientras premia las respuestas correctas en consultas resolubles, optimiza conjuntamente la abstención explícita y la aclaración post-rechazo semánticamente alineada en consultas irresolubles. Utilizando esta recompensa, entrenamos Abstain-R1, un modelo de 3B que mejora la abstención y la aclaración en consultas irresolubles mientras preserva un rendimiento sólido en las resolubles. Los experimentos en Abstain-Test, Abstain-QA y SelfAware muestran que Abstain-R1 mejora sustancialmente respecto a su modelo base y logra un comportamiento en consultas irresolubles competitivo con sistemas más grandes como DeepSeek-R1, lo que sugiere que la abstención y aclaración calibradas pueden aprenderse mediante recompensas verificables en lugar de emerger únicamente de la escala.

English

Reinforcement fine-tuning improves the reasoning ability of large language models, but it can also encourage them to answer unanswerable queries by guessing or hallucinating missing information. Existing abstention methods either train models to produce generic refusals or encourage follow-up clarifications without verifying whether those clarifications identify the key missing information. We study queries that are clear in meaning but cannot be reliably resolved from the given information, and argue that a reliable model should not only abstain, but also explain what is missing. We propose a clarification-aware RLVR reward that, while rewarding correct answers on answerable queries, jointly optimizes explicit abstention and semantically aligned post-refusal clarification on unanswerable queries. Using this reward, we train Abstain-R1, a 3B model that improves abstention and clarification on unanswerable queries while preserving strong performance on answerable ones. Experiments on Abstain-Test, Abstain-QA, and SelfAware show that Abstain-R1 substantially improves over its base model and achieves unanswerable-query behavior competitive with larger systems including DeepSeek-R1, suggesting that calibrated abstention and clarification can be learned through verifiable rewards rather than emerging from scale alone.

Abstain-R1: Abstención Calibrada y Aclaración Post-Rechazo mediante RL Verificable

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Resumen

Support