Das Beste aus N machen, nicht nehmen

papers.abstract

Die Erzeugung hochwertiger Ergebnisse in modernen LLMs wurde weitgehend als ein Auswahlproblem betrachtet: die Identifizierung einer einzigen, besten Generation aus einem diversen Pool von N Stichproben, dem sogenannten Best-of-N (BoN). Dieser Ansatz ist jedoch von Natur aus nullsummenorientiert, da er vielfältige und potenziell nützliche Informationen aus dem Pool verwirft. Stattdessen untersuchen wir ein kollaboratives Setup, bei dem alle Kandidaten potenziell zur endgültigen, besten Generation beitragen können. Zu diesem Zweck schlagen wir Fusion-of-N (FusioN) vor: eine Methode, die einen allgemeinen LLM-Richter verwendet, um die informativsten Elemente jeder Stichprobe in eine einzige, endgültige Antwort zu synthetisieren. Wir vergleichen FusioN mit BoN in zwei Szenarien: (i) Testzeit-Skalierung, bei der wir Stichproben aus einem einzelnen Modell zur Testzeit entnehmen und aggregieren, und (ii) synthetische Datengenerierung, bei der wir Stichproben aus einem Pool diverser Lehrer-Modelle fusionieren, um ein Schüler-Modell zu verbessern. Wir führen umfangreiche Benchmarks für beide Setups über 11 Sprachen, 3 verschiedene Aufgaben und unterschiedliche Modellgrößen durch. In allen Benchmarks übertrifft FusioN durchweg BoN und zeigt sowohl in der Testzeit-Skalierung als auch in den nachgelagerten Gewinnen aus der synthetischen Datengenerierung Vielseitigkeit und Robustheit. Wir führen auch eine umfassende Analyse von FusioN durch, bei der es überraschende Stärken und Robustheit unter herausfordernden Bedingungen zeigt. Diese Ergebnisse verdeutlichen, dass wir unsere Denkweise über die Bewertung und Nutzung von LLM-Generationen von einem monolithischen Qualitätsmaß hin zur Anerkennung ihrer polylithischen Natur verschieben sollten. Dieser Wandel ermöglicht es uns, vielfältige Stärken zu integrieren, latentes Potenzial freizusetzen und Verbesserungen zu erzielen, die bisher allein durch Auswahl unerreichbar waren.

English

Obtaining high-quality generations in modern LLMs has largely been framed as a selection problem: identifying a single winning generation from a diverse pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently zero-sum, discarding diverse and potentially useful information from the pool. Instead, we explore a collaborative setup, where all candidates can potentially contribute to the final winning generation. To this end, we propose Fusion-of-N (FusioN): a method that uses a general LLM judge to synthesize the most informative elements of each sample into a single final answer. We compare FusioN to BoN in two settings, (i) test-time scaling, where we sample and aggregate from a single model at test-time (ii) synthetic data generation, where we fuse samples from a pool of diverse teachers to improve a student model. We extensively benchmark both setups across 11 languages, 3 diverse tasks and varying model scales. Across the bench, FusioN consistently outperforms BoN showing versatility and robustness both in test-time scaling and in downstream gains from synthetic data generation. We also perform extensive analysis on FusioN, where it shows surprising strengths and robustness under challenging settings. These results show that we should shift how we think about evaluating and utilizing LLM generations from a monolithic measure of quality, to embracing their polylithic nature. This shift allows us to integrate diverse strengths, unlock latent potential, and achieve improvements that were previously inaccessible through selection alone.

Das Beste aus N machen, nicht nehmen

Making, not Taking, the Best of N

papers.abstract

Support