ChatPaper.aiChatPaper

Creare, non Sfruttare, il Meglio di N

Making, not Taking, the Best of N

October 1, 2025
Autori: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer
cs.AI

Abstract

Ottenere generazioni di alta qualità nei moderni LLM è stato prevalentemente inquadrato come un problema di selezione: identificare una singola generazione vincente da un pool diversificato di N campioni, il Best-of-N (BoN). Tuttavia, questo approccio è intrinsecamente a somma zero, scartando informazioni diversificate e potenzialmente utili dal pool. Invece, esploriamo una configurazione collaborativa, in cui tutti i candidati possono potenzialmente contribuire alla generazione vincente finale. A tal fine, proponiamo Fusion-of-N (FusioN): un metodo che utilizza un giudice LLM generale per sintetizzare gli elementi più informativi di ciascun campione in una singola risposta finale. Confrontiamo FusioN con BoN in due contesti, (i) scaling al momento del test, in cui campioniamo e aggregiamo da un singolo modello al momento del test (ii) generazione di dati sintetici, in cui fondiamo campioni da un pool di insegnanti diversi per migliorare un modello studente. Eseguiamo un benchmarking estensivo di entrambe le configurazioni su 11 lingue, 3 task diversi e scale di modello variabili. In tutto il benchmark, FusioN supera costantemente BoN, dimostrando versatilità e robustezza sia nello scaling al momento del test che nei guadagni a valle dalla generazione di dati sintetici. Eseguiamo anche un'analisi approfondita su FusioN, che mostra sorprendenti punti di forza e robustezza in contesti impegnativi. Questi risultati dimostrano che dovremmo cambiare il modo in cui pensiamo alla valutazione e all'utilizzo delle generazioni degli LLM, passando da una misura monolitica della qualità all'abbracciare la loro natura polilitica. Questo cambiamento ci permette di integrare punti di forza diversi, sbloccare potenziali latenti e raggiungere miglioramenti che erano precedentemente inaccessibili attraverso la sola selezione.
English
Obtaining high-quality generations in modern LLMs has largely been framed as a selection problem: identifying a single winning generation from a diverse pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently zero-sum, discarding diverse and potentially useful information from the pool. Instead, we explore a collaborative setup, where all candidates can potentially contribute to the final winning generation. To this end, we propose Fusion-of-N (FusioN): a method that uses a general LLM judge to synthesize the most informative elements of each sample into a single final answer. We compare FusioN to BoN in two settings, (i) test-time scaling, where we sample and aggregate from a single model at test-time (ii) synthetic data generation, where we fuse samples from a pool of diverse teachers to improve a student model. We extensively benchmark both setups across 11 languages, 3 diverse tasks and varying model scales. Across the bench, FusioN consistently outperforms BoN showing versatility and robustness both in test-time scaling and in downstream gains from synthetic data generation. We also perform extensive analysis on FusioN, where it shows surprising strengths and robustness under challenging settings. These results show that we should shift how we think about evaluating and utilizing LLM generations from a monolithic measure of quality, to embracing their polylithic nature. This shift allows us to integrate diverse strengths, unlock latent potential, and achieve improvements that were previously inaccessible through selection alone.
PDF82October 2, 2025