Das Beste aus N machen, nicht nehmen
Making, not Taking, the Best of N
October 1, 2025
papers.authors: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer
cs.AI
papers.abstract
Die Erzeugung hochwertiger Ergebnisse in modernen LLMs wurde weitgehend als ein Auswahlproblem betrachtet: die Identifizierung einer einzigen, besten Generation aus einem diversen Pool von N Stichproben, dem sogenannten Best-of-N (BoN). Dieser Ansatz ist jedoch von Natur aus nullsummenorientiert, da er vielfältige und potenziell nützliche Informationen aus dem Pool verwirft. Stattdessen untersuchen wir ein kollaboratives Setup, bei dem alle Kandidaten potenziell zur endgültigen, besten Generation beitragen können. Zu diesem Zweck schlagen wir Fusion-of-N (FusioN) vor: eine Methode, die einen allgemeinen LLM-Richter verwendet, um die informativsten Elemente jeder Stichprobe in eine einzige, endgültige Antwort zu synthetisieren. Wir vergleichen FusioN mit BoN in zwei Szenarien: (i) Testzeit-Skalierung, bei der wir Stichproben aus einem einzelnen Modell zur Testzeit entnehmen und aggregieren, und (ii) synthetische Datengenerierung, bei der wir Stichproben aus einem Pool diverser Lehrer-Modelle fusionieren, um ein Schüler-Modell zu verbessern. Wir führen umfangreiche Benchmarks für beide Setups über 11 Sprachen, 3 verschiedene Aufgaben und unterschiedliche Modellgrößen durch. In allen Benchmarks übertrifft FusioN durchweg BoN und zeigt sowohl in der Testzeit-Skalierung als auch in den nachgelagerten Gewinnen aus der synthetischen Datengenerierung Vielseitigkeit und Robustheit. Wir führen auch eine umfassende Analyse von FusioN durch, bei der es überraschende Stärken und Robustheit unter herausfordernden Bedingungen zeigt. Diese Ergebnisse verdeutlichen, dass wir unsere Denkweise über die Bewertung und Nutzung von LLM-Generationen von einem monolithischen Qualitätsmaß hin zur Anerkennung ihrer polylithischen Natur verschieben sollten. Dieser Wandel ermöglicht es uns, vielfältige Stärken zu integrieren, latentes Potenzial freizusetzen und Verbesserungen zu erzielen, die bisher allein durch Auswahl unerreichbar waren.
English
Obtaining high-quality generations in modern LLMs has largely been framed as
a selection problem: identifying a single winning generation from a diverse
pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently
zero-sum, discarding diverse and potentially useful information from the pool.
Instead, we explore a collaborative setup, where all candidates can potentially
contribute to the final winning generation. To this end, we propose Fusion-of-N
(FusioN): a method that uses a general LLM judge to synthesize the most
informative elements of each sample into a single final answer. We compare
FusioN to BoN in two settings, (i) test-time scaling, where we sample and
aggregate from a single model at test-time (ii) synthetic data generation,
where we fuse samples from a pool of diverse teachers to improve a student
model. We extensively benchmark both setups across 11 languages, 3 diverse
tasks and varying model scales. Across the bench, FusioN consistently
outperforms BoN showing versatility and robustness both in test-time scaling
and in downstream gains from synthetic data generation. We also perform
extensive analysis on FusioN, where it shows surprising strengths and
robustness under challenging settings. These results show that we should shift
how we think about evaluating and utilizing LLM generations from a monolithic
measure of quality, to embracing their polylithic nature. This shift allows us
to integrate diverse strengths, unlock latent potential, and achieve
improvements that were previously inaccessible through selection alone.