Souper-Model: Como a Aritmética Simples Desbloqueia o Desempenho de Ponta em LLMs

Resumo

Os Grandes Modelos de Linguagem (LLMs) demonstraram capacidades notáveis em diversos domínios, mas o seu treinamento continua a ser um processo intensivo em recursos e tempo, exigindo poder computacional massivo e uma orquestração cuidadosa dos procedimentos de treino. A técnica de "model souping" - a prática de calcular a média dos pesos de múltiplos modelos da mesma arquitetura - emergiu como uma técnica promissora, aplicável antes e após o treino, que pode melhorar o desempenho sem um retreinamento dispendioso. Neste artigo, introduzimos a "Sopa de Especialistas por Categoria" (SoCE), uma abordagem fundamentada para "model souping" que utiliza a composição de benchmarks para identificar os candidatos de modelo ideais e aplica uma média ponderada não uniforme para maximizar o desempenho. Ao contrário das abordagens anteriores de média uniforme, o nosso método aproveita a observação de que as categorias de benchmark frequentemente exibem baixas intercorrelações no desempenho dos modelos. A SoCE identifica modelos "especialistas" para cada agrupamento de categorias fracamente correlacionadas e combina-os usando uma média ponderada otimizada em vez de pesos uniformes. Demonstramos que o método proposto melhora o desempenho e a robustez em múltiplos domínios, incluindo capacidades multilingues, chamada de ferramentas e matemática, e alcança resultados de última geração no Berkeley Function Calling Leaderboard.

English

Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.

Souper-Model: Como a Aritmética Simples Desbloqueia o Desempenho de Ponta em LLMs

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

Resumo

Support