Trascendiendo la Moda: Razonamiento Distribucional en Modelos de Lenguaje mediante Aprendizaje por Refuerzo
Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
March 25, 2026
Autores: Isha Puri, Mehul Damani, Idan Shenfeld, Marzyeh Ghassemi, Jacob Andreas, Yoon Kim
cs.AI
Resumen
Dada una pregunta, un modelo de lenguaje (LM) codifica implícitamente una distribución sobre las posibles respuestas. En la práctica, los procedimientos posteriores al entrenamiento de los LM a menudo colapsan esta distribución en una única moda dominante. Si bien esto generalmente no es un problema para evaluaciones de tipo *benchmark* que asumen una respuesta correcta, muchas tareas del mundo real implican inherentemente múltiples respuestas válidas o una incertidumbre irreducible. Ejemplos de ello incluyen el diagnóstico médico, la respuesta a preguntas ambiguas y entornos con información incompleta. En estos casos, nos gustaría que los LM generaran múltiples hipótesis plausibles, idealmente con estimaciones de confianza para cada una, y sin necesidad de un muestreo repetido computacionalmente intensivo para generar respuestas no modales. Este artículo describe un enfoque de aprendizaje por refuerzo multi-respuesta para entrenar LM con el fin de que realicen un razonamiento distribucional sobre múltiples respuestas durante la inferencia. Modificamos el objetivo de RL para permitir que los modelos generen explícitamente múltiples respuestas candidatas en un único paso hacia adelante, internalizando aspectos de la búsqueda en el momento de la inferencia dentro del proceso generativo del modelo. En diversos *benchmarks* de respuesta a preguntas, diagnóstico médico y codificación, observamos una mejora en las puntuaciones de diversidad, cobertura y calibración a nivel de conjunto en comparación con líneas base entrenadas para una sola respuesta. Los modelos entrenados con nuestro enfoque requieren menos *tokens* para generar múltiples respuestas que los enfoques competidores. En tareas de codificación, también son sustancialmente más precisos. Estos resultados posicionan al RL multi-respuesta como una alternativa fundamentada y eficiente en cómputo a los procedimientos de escalado en el momento de la inferencia, como el *best-of-k*. El código y más información pueden encontrarse en https://multi-answer-rl.github.io/.
English
Given a question, a language model (LM) implicitly encodes a distribution over possible answers. In practice, post-training procedures for LMs often collapse this distribution onto a single dominant mode. While this is generally not a problem for benchmark-style evaluations that assume one correct answer, many real-world tasks inherently involve multiple valid answers or irreducible uncertainty. Examples include medical diagnosis, ambiguous question answering, and settings with incomplete information. In these cases, we would like LMs to generate multiple plausible hypotheses, ideally with confidence estimates for each one, and without computationally intensive repeated sampling to generate non-modal answers. This paper describes a multi-answer reinforcement learning approach for training LMs to perform distributional reasoning over multiple answers during inference. We modify the RL objective to enable models to explicitly generate multiple candidate answers in a single forward pass, internalizing aspects of inference-time search into the model's generative process. Across question-answering, medical diagnostic, and coding benchmarks, we observe improved diversity, coverage, and set-level calibration scores compared to single answer trained baselines. Models trained with our approach require fewer tokens to generate multiple answers than competing approaches. On coding tasks, they are also substantially more accurate. These results position multi-answer RL as a principled and compute-efficient alternative to inference-time scaling procedures such as best-of-k. Code and more information can be found at https://multi-answer-rl.github.io/.