Souper-Modelo: Cómo la Aritmética Simple Desbloquea el Rendimiento de Última Generación en los LLM
Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
November 17, 2025
Autores: Shalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLM) han demostrado capacidades notables en diversos dominios, pero su entrenamiento sigue siendo intensivo en recursos y tiempo, requiriendo una potencia de cálculo masiva y una cuidadosa orquestación de los procedimientos de entrenamiento. El "model souping" —la práctica de promediar los pesos de múltiples modelos de la misma arquitectura— ha surgido como una técnica prometedora, tanto previa como posterior al entrenamiento, que puede mejorar el rendimiento sin un costoso reentrenamiento. En este artículo, presentamos Soup Of Category Experts (SoCE), un enfoque fundamentado para el "model souping" que utiliza la composición de benchmarks para identificar candidatos de modelos óptimos y aplica un promedio ponderado no uniforme para maximizar el rendimiento. A diferencia de los enfoques previos de promediado uniforme, nuestro método aprovecha la observación de que las categorías de los benchmarks a menudo exhiben bajas intercorrelaciones en el rendimiento del modelo. SoCE identifica modelos "expertos" para cada grupo de categorías débilmente correlacionadas y los combina utilizando un promedio ponderado optimizado en lugar de pesos uniformes. Demostramos que el método propuesto mejora el rendimiento y la robustez en múltiples dominios, incluidas las capacidades multilingües, la invocación de herramientas y las matemáticas, y logra resultados de vanguardia en el Berkeley Function Calling Leaderboard.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.