ChatPaper.aiChatPaper

Souper-Model: 単純な算術が最先端のLLM性能を解き放つ方法

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

November 17, 2025
著者: Shalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach
cs.AI

要旨

大規模言語モデル(LLM)は多様な領域で顕著な能力を発揮しているが、その学習には依然として多大なリソースと時間を要し、膨大な計算能力と学習手順の慎重な調整が要求される。モデルスープ(同一アーキテクチャの複数モデルの重みを平均化する手法)は、高価な再学習を必要とせずに性能を向上させることができる有望な事前・事後学習技術として登場した。本論文では、ベンチマーク構成を活用して最適なモデル候補を特定し、性能を最大化するために非一様重み付き平均化を適用する、原理に基づいたモデルスープ手法であるSoCE(Soup Of Category Experts)を提案する。従来の一様平均化アプローチとは異なり、本手法はベンチマークカテゴリー間でモデル性能の相互相関が低いという観察事実を利用する。SoCEは、弱相関のカテゴリー群それぞれに対して「エキスパート」モデルを特定し、一様重みではなく最適化された重み付き平均化によってそれらを結合する。提案手法が、多言語対応、ツール呼び出し、数学など複数領域にわたる性能とロバスト性を向上させ、Berkeley Function Calling Leaderboardにおいてstate-of-the-artの結果を達成することを実証する。
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.
PDF1314December 1, 2025