최선을 취하는 것이 아니라, 최선을 만드는 N
Making, not Taking, the Best of N
October 1, 2025
저자: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer
cs.AI
초록
현대의 대형 언어 모델(LLM)에서 고품질의 생성물을 얻는 것은 주로 선택 문제로 여겨져 왔다: 다양한 N개의 샘플 풀에서 단일 승자 생성물을 식별하는 Best-of-N(BoN) 방식이 그것이다. 그러나 이 접근법은 본질적으로 제로섬(zero-sum)적이며, 풀에 있는 다양하고 잠재적으로 유용한 정보를 버리게 된다. 대신, 우리는 모든 후보가 최종 승자 생성물에 기여할 수 있는 협업적 설정을 탐구한다. 이를 위해 우리는 Fusion-of-N(FusioN)을 제안한다: 이 방법은 일반적인 LLM 판단자를 사용하여 각 샘플의 가장 유익한 요소를 단일 최종 답변으로 통합한다. 우리는 FusioN을 BoN과 두 가지 설정에서 비교한다, (i) 테스트 시간 확장, 여기서 우리는 테스트 시간에 단일 모델에서 샘플링하고 집계하며, (ii) 합성 데이터 생성, 여기서 우리는 다양한 교사 모델 풀에서 샘플을 융합하여 학생 모델을 개선한다. 우리는 11개 언어, 3가지 다양한 작업 및 다양한 모델 규모에 걸쳐 두 설정을 광범위하게 벤치마킹한다. 벤치마크 전반에 걸쳐 FusioN은 BoN을 일관되게 능가하며, 테스트 시간 확장과 합성 데이터 생성에서의 하류 작업 개선 모두에서 다양성과 견고성을 보여준다. 또한 우리는 FusioN에 대한 광범위한 분석을 수행하며, 이는 도전적인 설정에서 놀라운 강점과 견고성을 보여준다. 이러한 결과는 우리가 LLM 생성물을 평가하고 활용하는 방식을 단일적인 품질 측정에서 그들의 다면적 특성을 포용하는 방식으로 전환해야 함을 보여준다. 이러한 전환은 다양한 강점을 통합하고 잠재력을 개방하며, 선택만으로는 이전에 접근할 수 없었던 개선을 달성할 수 있게 한다.
English
Obtaining high-quality generations in modern LLMs has largely been framed as
a selection problem: identifying a single winning generation from a diverse
pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently
zero-sum, discarding diverse and potentially useful information from the pool.
Instead, we explore a collaborative setup, where all candidates can potentially
contribute to the final winning generation. To this end, we propose Fusion-of-N
(FusioN): a method that uses a general LLM judge to synthesize the most
informative elements of each sample into a single final answer. We compare
FusioN to BoN in two settings, (i) test-time scaling, where we sample and
aggregate from a single model at test-time (ii) synthetic data generation,
where we fuse samples from a pool of diverse teachers to improve a student
model. We extensively benchmark both setups across 11 languages, 3 diverse
tasks and varying model scales. Across the bench, FusioN consistently
outperforms BoN showing versatility and robustness both in test-time scaling
and in downstream gains from synthetic data generation. We also perform
extensive analysis on FusioN, where it shows surprising strengths and
robustness under challenging settings. These results show that we should shift
how we think about evaluating and utilizing LLM generations from a monolithic
measure of quality, to embracing their polylithic nature. This shift allows us
to integrate diverse strengths, unlock latent potential, and achieve
improvements that were previously inaccessible through selection alone.