Hacer, no Tomar, lo Mejor de N
Making, not Taking, the Best of N
October 1, 2025
Autores: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer
cs.AI
Resumen
La obtención de generaciones de alta calidad en los LLM modernos se ha enmarcado principalmente como un problema de selección: identificar una única generación ganadora de un grupo diverso de N muestras, el Best-of-N (BoN). Sin embargo, este enfoque es inherentemente de suma cero, descartando información diversa y potencialmente útil del grupo. En su lugar, exploramos una configuración colaborativa, donde todos los candidatos pueden contribuir potencialmente a la generación ganadora final. Para ello, proponemos Fusion-of-N (FusioN): un método que utiliza un juez LLM general para sintetizar los elementos más informativos de cada muestra en una única respuesta final. Comparamos FusioN con BoN en dos configuraciones: (i) escalado en tiempo de prueba, donde muestreamos y agregamos de un único modelo en tiempo de prueba, y (ii) generación de datos sintéticos, donde fusionamos muestras de un grupo de profesores diversos para mejorar un modelo estudiante. Evaluamos ampliamente ambas configuraciones en 11 idiomas, 3 tareas diversas y escalas de modelos variables. En todas las pruebas, FusioN supera consistentemente a BoN, mostrando versatilidad y robustez tanto en el escalado en tiempo de prueba como en las ganancias posteriores de la generación de datos sintéticos. También realizamos un análisis exhaustivo de FusioN, donde muestra fortalezas sorprendentes y robustez en configuraciones desafiantes. Estos resultados demuestran que deberíamos cambiar nuestra forma de pensar sobre la evaluación y utilización de las generaciones de LLM, pasando de una medida monolítica de calidad a abrazar su naturaleza polilítica. Este cambio nos permite integrar diversas fortalezas, desbloquear potencial latente y lograr mejoras que antes eran inaccesibles únicamente mediante la selección.
English
Obtaining high-quality generations in modern LLMs has largely been framed as
a selection problem: identifying a single winning generation from a diverse
pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently
zero-sum, discarding diverse and potentially useful information from the pool.
Instead, we explore a collaborative setup, where all candidates can potentially
contribute to the final winning generation. To this end, we propose Fusion-of-N
(FusioN): a method that uses a general LLM judge to synthesize the most
informative elements of each sample into a single final answer. We compare
FusioN to BoN in two settings, (i) test-time scaling, where we sample and
aggregate from a single model at test-time (ii) synthetic data generation,
where we fuse samples from a pool of diverse teachers to improve a student
model. We extensively benchmark both setups across 11 languages, 3 diverse
tasks and varying model scales. Across the bench, FusioN consistently
outperforms BoN showing versatility and robustness both in test-time scaling
and in downstream gains from synthetic data generation. We also perform
extensive analysis on FusioN, where it shows surprising strengths and
robustness under challenging settings. These results show that we should shift
how we think about evaluating and utilizing LLM generations from a monolithic
measure of quality, to embracing their polylithic nature. This shift allows us
to integrate diverse strengths, unlock latent potential, and achieve
improvements that were previously inaccessible through selection alone.