Além do Modo: Raciocínio Distribucional em Modelos de Linguagem com Aprendizado por Reforço

Resumo

Dada uma pergunta, um modelo de linguagem (LM) codifica implicitamente uma distribuição sobre possíveis respostas. Na prática, os procedimentos de pós-treinamento para LMs frequentemente colapsam essa distribuição em um único modo dominante. Embora isso geralmente não seja um problema para avaliações do tipo *benchmark* que assumem uma resposta correta, muitas tarefas do mundo real envolvem inerentemente múltiplas respostas válidas ou incerteza irredutível. Exemplos incluem diagnóstico médico, resposta a perguntas ambíguas e contextos com informação incompleta. Nestes casos, gostaríamos que os LMs gerassem múltiplas hipóteses plausíveis, idealmente com estimativas de confiança para cada uma, e sem a necessidade de amostragem repetida computacionalmente intensa para gerar respostas não modais. Este artigo descreve uma abordagem de aprendizagem por reforço multi-resposta para treinar LMs a realizar raciocínio distribucional sobre múltiplas respostas durante a inferência. Modificamos o objetivo de RL para permitir que os modelos gerem explicitamente múltiplas respostas candidatas em uma única passagem (*forward pass*), internalizando aspetos da busca no momento de inferência no processo generativo do modelo. Em *benchmarks* de resposta a perguntas, diagnóstico médico e programação, observamos melhorias na diversidade, cobertura e pontuações de calibração a nível de conjunto, em comparação com linhas de base treinadas para resposta única. Os modelos treinados com a nossa abordagem requerem menos *tokens* para gerar múltiplas respostas do que as abordagens concorrentes. Em tarefas de programação, são também substancialmente mais precisos. Estes resultados posicionam o RL multi-resposta como uma alternativa fundamentada e computacionalmente eficiente aos procedimentos de escalonamento no momento de inferência, como o *best-of-k*. O código e mais informações podem ser encontrados em https://multi-answer-rl.github.io/.

English

Given a question, a language model (LM) implicitly encodes a distribution over possible answers. In practice, post-training procedures for LMs often collapse this distribution onto a single dominant mode. While this is generally not a problem for benchmark-style evaluations that assume one correct answer, many real-world tasks inherently involve multiple valid answers or irreducible uncertainty. Examples include medical diagnosis, ambiguous question answering, and settings with incomplete information. In these cases, we would like LMs to generate multiple plausible hypotheses, ideally with confidence estimates for each one, and without computationally intensive repeated sampling to generate non-modal answers. This paper describes a multi-answer reinforcement learning approach for training LMs to perform distributional reasoning over multiple answers during inference. We modify the RL objective to enable models to explicitly generate multiple candidate answers in a single forward pass, internalizing aspects of inference-time search into the model's generative process. Across question-answering, medical diagnostic, and coding benchmarks, we observe improved diversity, coverage, and set-level calibration scores compared to single answer trained baselines. Models trained with our approach require fewer tokens to generate multiple answers than competing approaches. On coding tasks, they are also substantially more accurate. These results position multi-answer RL as a principled and compute-efficient alternative to inference-time scaling procedures such as best-of-k. Code and more information can be found at https://multi-answer-rl.github.io/.

Além do Modo: Raciocínio Distribucional em Modelos de Linguagem com Aprendizado por Reforço

Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

Resumo

Support