Über den Modus hinaus: Reinforcement Learning für verteilungsbasiertes Schließen in Sprachmodellen
Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
March 25, 2026
Autoren: Isha Puri, Mehul Damani, Idan Shenfeld, Marzyeh Ghassemi, Jacob Andreas, Yoon Kim
cs.AI
Zusammenfassung
Bei einer gegebenen Frage kodiert ein Sprachmodell (LM) implizit eine Verteilung über mögliche Antworten. In der Praxis kollabieren Nachbearbeitungsverfahren für LMs diese Verteilung oft auf einen einzelnen dominanten Modus. Während dies für Benchmark-Evaluierungen, die von einer korrekten Antwort ausgehen, generell unproblematisch ist, beinhalten viele reale Aufgaben inhärent mehrere gültige Antworten oder nichtreduzierbare Unsicherheit. Beispiele hierfür sind medizinische Diagnosen, mehrdeutiges Frage-Antworten und Situationen mit unvollständigen Informationen. In diesen Fällen sollten LMs mehrere plausible Hypothesen generieren, idealerweise mit Konfidenzschätzungen für jede davon, und ohne rechenintensives wiederholtes Sampling, um nicht-modale Antworten zu erzeugen. Dieses Papier beschreibt einen Multi-Antwort-Verstärkungslernansatz, um LMs darauf zu trainieren, während des Inferierens verteilungsbasiert über mehrere Antworten zu schlussfolgern. Wir modifizieren das RL-Ziel, um Modelle in die Lage zu versetzen, explizit mehrere Kandidatenantworten in einem einzigen Vorwärtsdurchlauf zu generieren und Aspekte der Inferenzzeitsuche in den generativen Prozess des Modells zu internalisieren. Über Frage-Antwort-, medizinische Diagnose- und Programmier-Benchmarks hinweg beobachten wir im Vergleich zu Einzelantwort-Baselines verbesserte Diversität, Abdeckung und Kalibrierungswerte auf Mengenebene. Mit unserem Ansatz trainierte Modelle benötigen weniger Tokens, um mehrere Antworten zu generieren, als konkurrierende Ansätze. Bei Programmieraufgaben sind sie zudem erheblich genauer. Diese Ergebnisse positionieren Multi-Antwort-RL als prinzipielle und recheneffiziente Alternative zu Inferenzzeit-Skalierungsverfahren wie Best-of-k. Code und weitere Informationen sind unter https://multi-answer-rl.github.io/ verfügbar.
English
Given a question, a language model (LM) implicitly encodes a distribution over possible answers. In practice, post-training procedures for LMs often collapse this distribution onto a single dominant mode. While this is generally not a problem for benchmark-style evaluations that assume one correct answer, many real-world tasks inherently involve multiple valid answers or irreducible uncertainty. Examples include medical diagnosis, ambiguous question answering, and settings with incomplete information. In these cases, we would like LMs to generate multiple plausible hypotheses, ideally with confidence estimates for each one, and without computationally intensive repeated sampling to generate non-modal answers. This paper describes a multi-answer reinforcement learning approach for training LMs to perform distributional reasoning over multiple answers during inference. We modify the RL objective to enable models to explicitly generate multiple candidate answers in a single forward pass, internalizing aspects of inference-time search into the model's generative process. Across question-answering, medical diagnostic, and coding benchmarks, we observe improved diversity, coverage, and set-level calibration scores compared to single answer trained baselines. Models trained with our approach require fewer tokens to generate multiple answers than competing approaches. On coding tasks, they are also substantially more accurate. These results position multi-answer RL as a principled and compute-efficient alternative to inference-time scaling procedures such as best-of-k. Code and more information can be found at https://multi-answer-rl.github.io/.