Créer, non pas prendre, le meilleur de N
Making, not Taking, the Best of N
October 1, 2025
papers.authors: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer
cs.AI
papers.abstract
L'obtention de générations de haute qualité dans les LLM modernes a été largement abordée comme un problème de sélection : identifier une seule génération gagnante parmi un pool diversifié de N échantillons, le Best-of-N (BoN). Cependant, cette approche est intrinsèquement à somme nulle, écartant des informations diverses et potentiellement utiles du pool. Nous explorons plutôt une configuration collaborative, où tous les candidats peuvent potentiellement contribuer à la génération finale gagnante. À cette fin, nous proposons Fusion-of-N (FusioN) : une méthode qui utilise un juge LLM général pour synthétiser les éléments les plus informatifs de chaque échantillon en une seule réponse finale. Nous comparons FusioN à BoN dans deux contextes, (i) le scaling au moment du test, où nous échantillonnons et agrégeons à partir d'un seul modèle au moment du test, et (ii) la génération de données synthétiques, où nous fusionnons des échantillons provenant d'un pool d'enseignants diversifiés pour améliorer un modèle étudiant. Nous évaluons de manière approfondie ces deux configurations sur 11 langues, 3 tâches variées et différentes échelles de modèles. À travers les benchmarks, FusioN surpasse systématiquement BoN, démontrant sa polyvalence et sa robustesse à la fois dans le scaling au moment du test et dans les gains en aval issus de la génération de données synthétiques. Nous effectuons également une analyse approfondie de FusioN, qui révèle des forces et une robustesse surprenantes dans des contextes difficiles. Ces résultats montrent que nous devons repenser notre manière d'évaluer et d'utiliser les générations de LLM, en passant d'une mesure monolithique de la qualité à une approche qui embrasse leur nature polylithique. Ce changement nous permet d'intégrer des forces diverses, de libérer un potentiel latent et d'atteindre des améliorations qui étaient auparavant inaccessibles par la seule sélection.
English
Obtaining high-quality generations in modern LLMs has largely been framed as
a selection problem: identifying a single winning generation from a diverse
pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently
zero-sum, discarding diverse and potentially useful information from the pool.
Instead, we explore a collaborative setup, where all candidates can potentially
contribute to the final winning generation. To this end, we propose Fusion-of-N
(FusioN): a method that uses a general LLM judge to synthesize the most
informative elements of each sample into a single final answer. We compare
FusioN to BoN in two settings, (i) test-time scaling, where we sample and
aggregate from a single model at test-time (ii) synthetic data generation,
where we fuse samples from a pool of diverse teachers to improve a student
model. We extensively benchmark both setups across 11 languages, 3 diverse
tasks and varying model scales. Across the bench, FusioN consistently
outperforms BoN showing versatility and robustness both in test-time scaling
and in downstream gains from synthetic data generation. We also perform
extensive analysis on FusioN, where it shows surprising strengths and
robustness under challenging settings. These results show that we should shift
how we think about evaluating and utilizing LLM generations from a monolithic
measure of quality, to embracing their polylithic nature. This shift allows us
to integrate diverse strengths, unlock latent potential, and achieve
improvements that were previously inaccessible through selection alone.