ChatPaper.aiChatPaper

Fazendo, não Tomando, o Melhor de N

Making, not Taking, the Best of N

October 1, 2025
Autores: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer
cs.AI

Resumo

A obtenção de gerações de alta qualidade em LLMs modernos tem sido amplamente enquadrada como um problema de seleção: identificar uma única geração vencedora a partir de um conjunto diversificado de N amostras, o Best-of-N (BoN). No entanto, essa abordagem é intrinsecamente de soma zero, descartando informações diversas e potencialmente úteis do conjunto. Em vez disso, exploramos uma configuração colaborativa, onde todos os candidatos podem potencialmente contribuir para a geração vencedora final. Para isso, propomos o Fusion-of-N (FusioN): um método que utiliza um juiz LLM geral para sintetizar os elementos mais informativos de cada amostra em uma única resposta final. Comparamos o FusioN ao BoN em dois cenários: (i) escalonamento em tempo de teste, onde amostramos e agregamos a partir de um único modelo em tempo de teste, e (ii) geração de dados sintéticos, onde fundimos amostras de um conjunto de professores diversos para melhorar um modelo estudante. Realizamos extensos benchmarks de ambas as configurações em 11 idiomas, 3 tarefas diversas e escalas variadas de modelos. Em todos os benchmarks, o FusioN consistentemente supera o BoN, mostrando versatilidade e robustez tanto no escalonamento em tempo de teste quanto nos ganhos subsequentes da geração de dados sintéticos. Também realizamos uma análise extensiva do FusioN, onde ele demonstra forças surpreendentes e robustez em cenários desafiadores. Esses resultados mostram que devemos mudar a forma como pensamos em avaliar e utilizar as gerações de LLMs, passando de uma medida monolítica de qualidade para abraçar sua natureza polilítica. Essa mudança nos permite integrar forças diversas, desbloquear potencial latente e alcançar melhorias que antes eram inacessíveis apenas por meio da seleção.
English
Obtaining high-quality generations in modern LLMs has largely been framed as a selection problem: identifying a single winning generation from a diverse pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently zero-sum, discarding diverse and potentially useful information from the pool. Instead, we explore a collaborative setup, where all candidates can potentially contribute to the final winning generation. To this end, we propose Fusion-of-N (FusioN): a method that uses a general LLM judge to synthesize the most informative elements of each sample into a single final answer. We compare FusioN to BoN in two settings, (i) test-time scaling, where we sample and aggregate from a single model at test-time (ii) synthetic data generation, where we fuse samples from a pool of diverse teachers to improve a student model. We extensively benchmark both setups across 11 languages, 3 diverse tasks and varying model scales. Across the bench, FusioN consistently outperforms BoN showing versatility and robustness both in test-time scaling and in downstream gains from synthetic data generation. We also perform extensive analysis on FusioN, where it shows surprising strengths and robustness under challenging settings. These results show that we should shift how we think about evaluating and utilizing LLM generations from a monolithic measure of quality, to embracing their polylithic nature. This shift allows us to integrate diverse strengths, unlock latent potential, and achieve improvements that were previously inaccessible through selection alone.
PDF82October 2, 2025