Oltre la Moda: Apprendimento per Rinforzo per il Ragionamento Distribuzionale nei Modelli Linguistici
Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
March 25, 2026
Autori: Isha Puri, Mehul Damani, Idan Shenfeld, Marzyeh Ghassemi, Jacob Andreas, Yoon Kim
cs.AI
Abstract
Data una domanda, un modello linguistico (LM) codifica implicitamente una distribuzione sulle possibili risposte. Nella pratica, le procedure di post-addestramento per i LM spesso collassano questa distribuzione su una singola modalità dominante. Sebbene ciò non sia generalmente un problema per valutazioni di tipo benchmark che presuppongono una risposta corretta, molti compiti del mondo reale coinvolgono intrinsecamente molteplici risposte valide o un'incertezza irriducibile. Esempi includono la diagnosi medica, risposte a domande ambigue e contesti con informazioni incomplete. In questi casi, desidereremmo che i LM generino multiple ipotesi plausibili, idealmente con stime di confidenza per ciascuna, e senza un campionamento ripetuto computazionalmente intensivo per generare risposte non modali. Questo articolo descrive un approccio di apprendimento per rinforzo multi-risposta per addestrare i LM a eseguire ragionamenti distribuzionali su più risposte durante l'inferenza. Modifichiamo l'obiettivo dell'RL per consentire ai modelli di generare esplicitamente più risposte candidate in un unico passaggio in avanti, internalizzando aspetti della ricerca al momento dell'inferenza all'interno del processo generativo del modello. In benchmark di question-answering, diagnostica medica e programmazione, osserviamo punteggi migliorati di diversità, copertura e calibrazione a livello di insieme rispetto a baseline addestrate per singola risposta. I modelli addestrati con il nostro approccio richiedono meno token per generare più risposte rispetto agli approcci concorrenti. Sui compiti di programmazione, sono anche sostanzialmente più accurati. Questi risultati posizionano l'RL multi-risposta come un'alternativa principiata e computazionalmente efficiente alle procedure di scaling al momento dell'inferenza come il best-of-k. Il codice e ulteriori informazioni sono disponibili all'indirizzo https://multi-answer-rl.github.io/.
English
Given a question, a language model (LM) implicitly encodes a distribution over possible answers. In practice, post-training procedures for LMs often collapse this distribution onto a single dominant mode. While this is generally not a problem for benchmark-style evaluations that assume one correct answer, many real-world tasks inherently involve multiple valid answers or irreducible uncertainty. Examples include medical diagnosis, ambiguous question answering, and settings with incomplete information. In these cases, we would like LMs to generate multiple plausible hypotheses, ideally with confidence estimates for each one, and without computationally intensive repeated sampling to generate non-modal answers. This paper describes a multi-answer reinforcement learning approach for training LMs to perform distributional reasoning over multiple answers during inference. We modify the RL objective to enable models to explicitly generate multiple candidate answers in a single forward pass, internalizing aspects of inference-time search into the model's generative process. Across question-answering, medical diagnostic, and coding benchmarks, we observe improved diversity, coverage, and set-level calibration scores compared to single answer trained baselines. Models trained with our approach require fewer tokens to generate multiple answers than competing approaches. On coding tasks, they are also substantially more accurate. These results position multi-answer RL as a principled and compute-efficient alternative to inference-time scaling procedures such as best-of-k. Code and more information can be found at https://multi-answer-rl.github.io/.