ChatPaper.aiChatPaper

Souper-Model: Hoe eenvoudige rekenkunde de deur opent naar topprestaties van grote taalmodellen

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

November 17, 2025
Auteurs: Shalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond in diverse domeinen, maar hun training blijft bron- en tijdintensief, wat enorme rekenkracht en een zorgvuldige coördinatie van trainingsprocedures vereist. Model Souping - de praktijk van het middelen van gewichten van meerdere modellen met dezelfde architectuur - is naar voren gekomen als een veelbelovende techniek voor en na de training, die prestaties kan verbeteren zonder dure hertraining. In dit artikel introduceren we Soup Of Category Experts (SoCE), een principiële benadering voor model souping die benchmark-samenstelling gebruikt om optimale modelkandidaten te identificeren en niet-uniform gewogen middeling toepast om de prestaties te maximaliseren. In tegenstelling tot eerdere uniforme middelingstechnieken, maakt onze methode gebruik van de observatie dat benchmarkcategorieën vaak een lage onderlinge correlatie vertonen in modelprestaties. SoCE identificeert "expert"-modellen voor elke zwak gecorreleerde categoriecluster en combineert deze met geoptimaliseerde gewogen middeling in plaats van uniforme gewichten. We demonstreren dat de voorgestelde methode de prestaties en robuustheid over meerdere domeinen verbetert, waaronder meertalige capaciteiten, tool calling en wiskunde, en state-of-the-art resultaten behaalt op de Berkeley Function Calling Leaderboard.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.
PDF1314December 1, 2025