Souper-Model: Come la semplice aritmetica sblocca le prestazioni all'avanguardia degli LLM
Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
November 17, 2025
Autori: Shalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli in diversi domini, ma il loro addestramento rimane dispendioso in termini di risorse e tempo, richiedendo una potenza di calcolo massiccia e un'attenta orchestrazione delle procedure di training. Il *model souping* – la pratica di mediare i pesi di più modelli con la stessa architettura – è emersa come una tecnica promettente, applicabile prima e dopo l'addestramento, in grado di migliorare le prestazioni senza costosi riaddestramenti. In questo articolo, introduciamo *Soup Of Category Experts* (SoCE), un approccio metodologico al *model souping* che utilizza la composizione dei benchmark per identificare i candidati ottimali e applica una media pesata non uniforme per massimizzare le prestazioni. Contrariamente ai precedenti approcci di media uniforme, il nostro metodo sfrutta l'osservazione che le categorie di benchmark spesso mostrano basse inter-correlazioni nelle prestazioni del modello. SoCE identifica modelli "esperti" per ogni cluster di categorie debolmente correlate e li combina utilizzando una media pesata ottimizzata invece di pesi uniformi. Dimostriamo che il metodo proposto migliora le prestazioni e la robustezza in molteplici domini, incluse le capacità multilingue, l'utilizzo di strumenti (*tool calling*) e la matematica, e raggiunge risultati allo stato dell'arte sul Berkeley Function Calling Leaderboard.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.