Het beste uit N halen, niet nemen
Making, not Taking, the Best of N
October 1, 2025
Auteurs: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer
cs.AI
Samenvatting
Het verkrijgen van hoogwaardige generaties in moderne LLM's is grotendeels benaderd als een selectieprobleem: het identificeren van één winnende generatie uit een diverse pool van N steekproeven, de Best-of-N (BoN). Deze aanpak is echter inherent zero-sum, waarbij diverse en potentieel nuttige informatie uit de pool wordt weggegooid. In plaats daarvan verkennen we een collaboratieve opzet, waarbij alle kandidaten potentieel kunnen bijdragen aan de uiteindelijke winnende generatie. Hiertoe stellen we Fusion-of-N (FusioN) voor: een methode die een algemene LLM-rechter gebruikt om de meest informatieve elementen van elke steekproef te synthetiseren tot één definitief antwoord. We vergelijken FusioN met BoN in twee settings: (i) test-time scaling, waarbij we steekproeven nemen en aggregeren van één model tijdens test-time, en (ii) synthetische datageneratie, waarbij we steekproeven uit een pool van diverse leraren samenvoegen om een studentmodel te verbeteren. We benchmarken beide opzetten uitgebreid over 11 talen, 3 diverse taken en variërende modelschalen. Over de hele linie presteert FusioN consistent beter dan BoN, wat wijst op veelzijdigheid en robuustheid zowel in test-time scaling als in downstream winsten door synthetische datageneratie. We voeren ook uitgebreide analyses uit op FusioN, waar het verrassende sterke punten en robuustheid toont onder uitdagende omstandigheden. Deze resultaten laten zien dat we onze manier van denken over het evalueren en benutten van LLM-generaties moeten verschuiven van een monolitische maatstaf van kwaliteit naar het omarmen van hun polylithische aard. Deze verschuiving stelt ons in staat om diverse sterke punten te integreren, latent potentieel te ontsluiten en verbeteringen te bereiken die voorheen niet toegankelijk waren door alleen selectie.
English
Obtaining high-quality generations in modern LLMs has largely been framed as
a selection problem: identifying a single winning generation from a diverse
pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently
zero-sum, discarding diverse and potentially useful information from the pool.
Instead, we explore a collaborative setup, where all candidates can potentially
contribute to the final winning generation. To this end, we propose Fusion-of-N
(FusioN): a method that uses a general LLM judge to synthesize the most
informative elements of each sample into a single final answer. We compare
FusioN to BoN in two settings, (i) test-time scaling, where we sample and
aggregate from a single model at test-time (ii) synthetic data generation,
where we fuse samples from a pool of diverse teachers to improve a student
model. We extensively benchmark both setups across 11 languages, 3 diverse
tasks and varying model scales. Across the bench, FusioN consistently
outperforms BoN showing versatility and robustness both in test-time scaling
and in downstream gains from synthetic data generation. We also perform
extensive analysis on FusioN, where it shows surprising strengths and
robustness under challenging settings. These results show that we should shift
how we think about evaluating and utilizing LLM generations from a monolithic
measure of quality, to embracing their polylithic nature. This shift allows us
to integrate diverse strengths, unlock latent potential, and achieve
improvements that were previously inaccessible through selection alone.