Dépasser le mode : l'apprentissage par renforcement pour le raisonnement distributionnel dans les modèles de langage

Résumé

Étant donné une question, un modèle de langage (ML) encode implicitement une distribution sur les réponses possibles. En pratique, les procédures post-entraînement des ML réduisent souvent cette distribution à un seul mode dominant. Bien que cela ne pose généralement pas de problème pour les évaluations de type benchmark qui supposent une seule réponse correcte, de nombreuses tâches du monde réel impliquent intrinsèquement plusieurs réponses valides ou une incertitude irréductible. Parmi les exemples, on peut citer le diagnostic médical, la réponse à des questions ambiguës et les contextes où l'information est incomplète. Dans ces cas, nous souhaitons que les ML génèrent plusieurs hypothèses plausibles, idéalement avec des estimations de confiance pour chacune, et sans recourir à un échantillonnage répété intensif en calcul pour générer des réponses non modales. Cet article décrit une approche d'apprentissage par renforcement multi-réponses pour entraîner les ML à effectuer un raisonnement distributionnel sur plusieurs réponses lors de l'inférence. Nous modifions l'objectif de l'AR pour permettre aux modèles de générer explicitement plusieurs réponses candidates en une seule passe avant, internalisant ainsi certains aspects de la recherche au moment de l'inférence dans le processus génératif du modèle. Sur des benchmarks de question-réponse, de diagnostic médical et de programmation, nous observons une amélioration de la diversité, de la couverture et des scores d'étalonnage au niveau de l'ensemble par rapport à des modèles de référence entraînés sur une seule réponse. Les modèles entraînés avec notre approche nécessitent moins de tokens pour générer plusieurs réponses que les approches concurrentes. Sur les tâches de programmation, ils sont également nettement plus précis. Ces résultats positionnent l'AR multi-réponses comme une alternative fondée et efficace en calcul aux procédures de mise à l'échelle au moment de l'inférence, comme le best-of-k. Le code et des informations supplémentaires sont disponibles à l'adresse https://multi-answer-rl.github.io/.

English

Given a question, a language model (LM) implicitly encodes a distribution over possible answers. In practice, post-training procedures for LMs often collapse this distribution onto a single dominant mode. While this is generally not a problem for benchmark-style evaluations that assume one correct answer, many real-world tasks inherently involve multiple valid answers or irreducible uncertainty. Examples include medical diagnosis, ambiguous question answering, and settings with incomplete information. In these cases, we would like LMs to generate multiple plausible hypotheses, ideally with confidence estimates for each one, and without computationally intensive repeated sampling to generate non-modal answers. This paper describes a multi-answer reinforcement learning approach for training LMs to perform distributional reasoning over multiple answers during inference. We modify the RL objective to enable models to explicitly generate multiple candidate answers in a single forward pass, internalizing aspects of inference-time search into the model's generative process. Across question-answering, medical diagnostic, and coding benchmarks, we observe improved diversity, coverage, and set-level calibration scores compared to single answer trained baselines. Models trained with our approach require fewer tokens to generate multiple answers than competing approaches. On coding tasks, they are also substantially more accurate. These results position multi-answer RL as a principled and compute-efficient alternative to inference-time scaling procedures such as best-of-k. Code and more information can be found at https://multi-answer-rl.github.io/.

Dépasser le mode : l'apprentissage par renforcement pour le raisonnement distributionnel dans les modèles de langage

Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

Résumé

Support