ChatPaper.aiChatPaper

Souper-Model: Как простая арифметика раскрывает потенциал современных больших языковых моделей

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

November 17, 2025
Авторы: Shalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие возможности в различных областях, однако их обучение остается ресурсоемким и длительным процессом, требующим значительных вычислительных мощностей и тщательной организации процедур обучения. "Суп моделей" (model souping) — практика усреднения весов нескольких моделей одинаковой архитектуры — стала перспективной техникой, применяемой до и после обучения, которая позволяет повысить производительность без дорогостоящего переобучения. В данной статье мы представляем Soup Of Category Experts (SoCE) — принципиальный подход к созданию "супа моделей", который использует состав бенчмарков для выявления оптимальных кандидатов и применяет взвешенное неоднородное усреднение для максимизации производительности. В отличие от предыдущих подходов с однородным усреднением, наш метод основывается на наблюдении, что категории бенчмарков часто демонстрируют низкую взаимную корреляцию по производительности моделей. SoCE идентифицирует "экспертные" модели для каждого слабо коррелированного кластера категорий и объединяет их с помощью оптимизированного взвешенного усреднения вместо использования равных весов. Мы показываем, что предложенный метод улучшает производительность и надежность в различных областях, включая мультиязычные возможности, вызов инструментов и математические задачи, и достигает передовых результатов на Berkeley Function Calling Leaderboard.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.
PDF1314December 1, 2025