ChatPaper.aiChatPaper

수퍼-모델: 단순 산술이 최첨단 LLM 성능을 여는 방법

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

November 17, 2025
저자: Shalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach
cs.AI

초록

대규모 언어 모델(LLM)은 다양한 영역에서 뛰어난 능력을 보여주고 있지만, 여전히 훈련에는 방대한 컴퓨팅 자원과 시간이 소요되며 훈련 절차의 세심한 조정이 필요합니다. 동일 아키텍처를 가진 여러 모델의 가중치를 평균화하는 모델 수프(Model Souping) 기법은 비용이 많이 드는 재훈련 없이 성능을 향상시킬 수 있는 유망한 훈련 전·후 기법으로 부상했습니다. 본 논문에서는 벤치마크 구성을 활용하여 최적의 모델 후보를 식별하고, 성능을 극대화하기 위해 비균등 가중 평균을 적용하는 원리 기반 모델 수프 접근법인 SoCE(Soup Of Category Experts)를 소개합니다. 기존의 균등 가중 평균 접근법과 달리, 본 방법론은 벤치마크 범주별 모델 성능 간의 상관관계가 낮은 현상을 활용합니다. SoCE는 약한 상관관계를 보이는 범주별 군집에 대해 해당 분야의 "전문가" 모델을 식별하고 균등 가중치가 아닌 최적화된 가중 평균을 통해 이들을 결합합니다. 우리는 제안된 방법이 다국어 능력, 도구 호출, 수학 문제 해결 등 다중 영역에서 성능과 강건성을 향상시키며, Berkeley Function Calling Leaderboard에서 최첨단 성과를 달성함을 입증합니다.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.
PDF1314December 1, 2025