Souper-Model : Comment l'Arithmétique Simple Débloque les Performances de Pointe des LLM
Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
November 17, 2025
papers.authors: Shalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans divers domaines, mais leur entraînement reste gourmand en ressources et en temps, nécessitant une puissance de calcul massive et une orchestration minutieuse des procédures d'apprentissage. Le « model souping » – pratique consistant à moyenner les poids de plusieurs modèles de même architecture – est apparu comme une technique prometteuse en pré- et post-entraînement permettant d'améliorer les performances sans recourir à un réentraînement coûteux. Dans cet article, nous présentons Soup Of Category Experts (SoCE), une approche méthodique de model souping qui utilise la composition de benchmarks pour identifier les modèles candidats optimaux et applique un moyennage pondéré non uniforme pour maximiser les performances. Contrairement aux approches précédentes de moyennage uniforme, notre méthode s'appuie sur l'observation que les catégories de benchmarks présentent souvent de faibles inter-corrélations dans les performances des modèles. SoCE identifie des modèles « experts » pour chaque groupe de catégories faiblement corrélées et les combine en utilisant un moyennage pondéré optimisé plutôt que des poids uniformes. Nous démontrons que la méthode proposée améliore les performances et la robustesse dans de multiples domaines, y compris les capacités multilingues, l'appel d'outils et les mathématiques, et obtient des résultats state-of-the-art sur le Berkeley Function Calling Leaderboard.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.