Abstain-R1: Abstenção Calibrada e Esclarecimento Pós-Recusa via RL Verificável

Resumo

O ajuste fino por reforço melhora a capacidade de raciocínio de modelos de linguagem grandes, mas também pode incentivá-los a responder a consultas impossíveis adivinhando ou alucinando informações em falta. Os métodos de abstenção existentes ou treinam modelos para produzir recusas genéricas ou incentivam esclarecimentos de acompanhamento sem verificar se esses esclarecimentos identificam a informação-chave em falta. Estudamos consultas que são claras em significado, mas não podem ser resolvidas de forma confiável a partir da informação fornecida, e argumentamos que um modelo confiável não deve apenas abster-se, mas também explicar o que está em falta. Propomos uma recompensa RLVR (Reinforcement Learning with Verifiable Refusals) consciente do esclarecimento que, ao recompensar respostas corretas em consultas respondíveis, otimiza conjuntamente a abstenção explícita e o esclarecimento pós-recusa semanticamente alinhado em consultas impossíveis. Usando esta recompensa, treinamos o Abstain-R1, um modelo de 3B que melhora a abstenção e o esclarecimento em consultas impossíveis, preservando um forte desempenho nas respondíveis. Experiências com Abstain-Test, Abstain-QA e SelfAware mostram que o Abstain-R1 melhora substancialmente em relação ao seu modelo base e alcança um comportamento em consultas impossíveis competitivo com sistemas maiores, incluindo o DeepSeek-R1, sugerindo que a abstenção e o esclarecimento calibrados podem ser aprendidos através de recompensas verificáveis, em vez de emergirem apenas da escala.

English

Reinforcement fine-tuning improves the reasoning ability of large language models, but it can also encourage them to answer unanswerable queries by guessing or hallucinating missing information. Existing abstention methods either train models to produce generic refusals or encourage follow-up clarifications without verifying whether those clarifications identify the key missing information. We study queries that are clear in meaning but cannot be reliably resolved from the given information, and argue that a reliable model should not only abstain, but also explain what is missing. We propose a clarification-aware RLVR reward that, while rewarding correct answers on answerable queries, jointly optimizes explicit abstention and semantically aligned post-refusal clarification on unanswerable queries. Using this reward, we train Abstain-R1, a 3B model that improves abstention and clarification on unanswerable queries while preserving strong performance on answerable ones. Experiments on Abstain-Test, Abstain-QA, and SelfAware show that Abstain-R1 substantially improves over its base model and achieves unanswerable-query behavior competitive with larger systems including DeepSeek-R1, suggesting that calibrated abstention and clarification can be learned through verifiable rewards rather than emerging from scale alone.

Abstain-R1: Abstenção Calibrada e Esclarecimento Pós-Recusa via RL Verificável

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Resumo

Support