Créer, non pas prendre, le meilleur de N

papers.abstract

L'obtention de générations de haute qualité dans les LLM modernes a été largement abordée comme un problème de sélection : identifier une seule génération gagnante parmi un pool diversifié de N échantillons, le Best-of-N (BoN). Cependant, cette approche est intrinsèquement à somme nulle, écartant des informations diverses et potentiellement utiles du pool. Nous explorons plutôt une configuration collaborative, où tous les candidats peuvent potentiellement contribuer à la génération finale gagnante. À cette fin, nous proposons Fusion-of-N (FusioN) : une méthode qui utilise un juge LLM général pour synthétiser les éléments les plus informatifs de chaque échantillon en une seule réponse finale. Nous comparons FusioN à BoN dans deux contextes, (i) le scaling au moment du test, où nous échantillonnons et agrégeons à partir d'un seul modèle au moment du test, et (ii) la génération de données synthétiques, où nous fusionnons des échantillons provenant d'un pool d'enseignants diversifiés pour améliorer un modèle étudiant. Nous évaluons de manière approfondie ces deux configurations sur 11 langues, 3 tâches variées et différentes échelles de modèles. À travers les benchmarks, FusioN surpasse systématiquement BoN, démontrant sa polyvalence et sa robustesse à la fois dans le scaling au moment du test et dans les gains en aval issus de la génération de données synthétiques. Nous effectuons également une analyse approfondie de FusioN, qui révèle des forces et une robustesse surprenantes dans des contextes difficiles. Ces résultats montrent que nous devons repenser notre manière d'évaluer et d'utiliser les générations de LLM, en passant d'une mesure monolithique de la qualité à une approche qui embrasse leur nature polylithique. Ce changement nous permet d'intégrer des forces diverses, de libérer un potentiel latent et d'atteindre des améliorations qui étaient auparavant inaccessibles par la seule sélection.

English

Obtaining high-quality generations in modern LLMs has largely been framed as a selection problem: identifying a single winning generation from a diverse pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently zero-sum, discarding diverse and potentially useful information from the pool. Instead, we explore a collaborative setup, where all candidates can potentially contribute to the final winning generation. To this end, we propose Fusion-of-N (FusioN): a method that uses a general LLM judge to synthesize the most informative elements of each sample into a single final answer. We compare FusioN to BoN in two settings, (i) test-time scaling, where we sample and aggregate from a single model at test-time (ii) synthetic data generation, where we fuse samples from a pool of diverse teachers to improve a student model. We extensively benchmark both setups across 11 languages, 3 diverse tasks and varying model scales. Across the bench, FusioN consistently outperforms BoN showing versatility and robustness both in test-time scaling and in downstream gains from synthetic data generation. We also perform extensive analysis on FusioN, where it shows surprising strengths and robustness under challenging settings. These results show that we should shift how we think about evaluating and utilizing LLM generations from a monolithic measure of quality, to embracing their polylithic nature. This shift allows us to integrate diverse strengths, unlock latent potential, and achieve improvements that were previously inaccessible through selection alone.

Créer, non pas prendre, le meilleur de N

Making, not Taking, the Best of N

papers.abstract

Support