ChatPaper.aiChatPaper

Souper-Model: Wie einfache Arithmetik Spitzenleistungen bei großen Sprachmodellen freisetzt

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

November 17, 2025
papers.authors: Shalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Domänen demonstriert, doch ihr Training bleibt ressourcen- und zeitintensiv, erfordert massive Rechenleistung und eine sorgfältige Orchestrierung der Trainingsverfahren. Model Souping – die Praxis, die Gewichte mehrerer Modelle derselben Architektur zu mitteln – hat sich als vielversprechende Vor- und Nachtrainingstechnik etabliert, die die Leistung ohne teures Neutraining verbessern kann. In diesem Artikel stellen wir Soup Of Category Experts (SoCE) vor, einen prinzipienbasierten Ansatz für Model Souping, der Benchmark-Zusammensetzungen nutzt, um optimale Modellkandidaten zu identifizieren und nicht-uniforme gewichtete Mittelung anwendet, um die Leistung zu maximieren. Im Gegensatz zu früheren Ansätzen mit uniformer Mittelung nutzt unsere Methode die Beobachtung, dass Benchmark-Kategorien oft geringe Interkorrelationen in der Modellleistung aufweisen. SoCE identifiziert "Experten"-Modelle für jeden schwach korrelierten Kategorie-Cluster und kombiniert sie mittels optimierter gewichteter Mittelung anstelle uniformer Gewichte. Wir demonstrieren, dass die vorgeschlagene Methode die Leistung und Robustheit über mehrere Domänen hinweg verbessert, einschließlich multilingualer Fähigkeiten, Tool Calling und Mathematik, und state-of-the-art Ergebnisse auf dem Berkeley Function Calling Leaderboard erzielt.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.
PDF1314December 1, 2025