ChatPaper.aiChatPaper

Создание, а не использование, наилучшего из N

Making, not Taking, the Best of N

October 1, 2025
Авторы: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer
cs.AI

Аннотация

Получение высококачественных результатов в современных языковых моделях (LLM) в основном рассматривалось как задача выбора: определение единственного лучшего результата из разнообразного пула из N образцов, известного как Best-of-N (BoN). Однако такой подход по своей природе является нулевой суммой, отбрасывая разнообразную и потенциально полезную информацию из пула. Вместо этого мы исследуем совместный подход, при котором все кандидаты могут потенциально внести вклад в окончательный результат. С этой целью мы предлагаем метод Fusion-of-N (FusioN): подход, который использует общую языковую модель в качестве судьи для синтеза наиболее информативных элементов каждого образца в единый окончательный ответ. Мы сравниваем FusioN с BoN в двух сценариях: (i) масштабирование на этапе тестирования, где мы выбираем и агрегируем образцы из одной модели на этапе тестирования, и (ii) генерация синтетических данных, где мы объединяем образцы из пула разнообразных моделей-учителей для улучшения модели-ученика. Мы проводим обширное тестирование обоих подходов на 11 языках, 3 различных задачах и моделях разного масштаба. Во всех тестах FusioN последовательно превосходит BoN, демонстрируя универсальность и устойчивость как в масштабировании на этапе тестирования, так и в улучшениях, полученных за счет генерации синтетических данных. Мы также проводим детальный анализ FusioN, который показывает его удивительные сильные стороны и устойчивость в сложных условиях. Эти результаты указывают на необходимость пересмотра подхода к оценке и использованию результатов языковых моделей: от монолитного измерения качества к принятию их полиморфной природы. Такой сдвиг позволяет интегрировать разнообразные сильные стороны, раскрыть скрытый потенциал и достичь улучшений, которые ранее были недоступны при использовании только метода выбора.
English
Obtaining high-quality generations in modern LLMs has largely been framed as a selection problem: identifying a single winning generation from a diverse pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently zero-sum, discarding diverse and potentially useful information from the pool. Instead, we explore a collaborative setup, where all candidates can potentially contribute to the final winning generation. To this end, we propose Fusion-of-N (FusioN): a method that uses a general LLM judge to synthesize the most informative elements of each sample into a single final answer. We compare FusioN to BoN in two settings, (i) test-time scaling, where we sample and aggregate from a single model at test-time (ii) synthetic data generation, where we fuse samples from a pool of diverse teachers to improve a student model. We extensively benchmark both setups across 11 languages, 3 diverse tasks and varying model scales. Across the bench, FusioN consistently outperforms BoN showing versatility and robustness both in test-time scaling and in downstream gains from synthetic data generation. We also perform extensive analysis on FusioN, where it shows surprising strengths and robustness under challenging settings. These results show that we should shift how we think about evaluating and utilizing LLM generations from a monolithic measure of quality, to embracing their polylithic nature. This shift allows us to integrate diverse strengths, unlock latent potential, and achieve improvements that were previously inaccessible through selection alone.
PDF82October 2, 2025