Repensando a Mistura de Agentes: Misturar Diferentes Modelos de Linguagem Grandes é Benéfico?
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?
February 2, 2025
Autores: Wenzhe Li, Yong Lin, Mengzhou Xia, Chi Jin
cs.AI
Resumo
A combinação de saídas de fontes diversas é uma abordagem simples, porém eficaz, para aumentar o desempenho. Mixture-of-Agents (MoA) é um método de conjunto popular que agrega saídas de múltiplos Modelos de Linguagem Grandes (LLMs) diferentes. Este artigo levanta a questão no contexto dos modelos de linguagem: misturar diferentes LLMs é realmente benéfico? Propomos o Self-MoA - um método de conjunto que agrega saídas apenas do LLM de melhor desempenho. Nossos experimentos extensivos revelam que, surpreendentemente, o Self-MoA supera o MoA padrão que mistura diferentes LLMs em um grande número de cenários: o Self-MoA alcança uma melhoria de 6,6% sobre o MoA no benchmark AlpacaEval 2.0, e uma média de 3,8% de melhoria em vários benchmarks, incluindo MMLU, CRUX e MATH. Aplicar o Self-MoA a um dos modelos mais bem classificados no AlpacaEval 2.0 alcança diretamente o novo desempenho de ponta no quadro de líderes. Para entender a eficácia do Self-MoA, investigamos sistematicamente o equilíbrio entre diversidade e qualidade das saídas em várias configurações do MoA. Confirmamos que o desempenho do MoA é bastante sensível à qualidade, e misturar diferentes LLMs frequentemente reduz a qualidade média dos modelos. Para complementar o estudo, identificamos os cenários em que a mistura de diferentes LLMs pode ser útil. Este artigo também introduz uma versão sequencial do Self-MoA, capaz de agregar um grande número de saídas de LLMs dinamicamente ao longo de várias rodadas, e é tão eficaz quanto a agregação de todas as saídas de uma vez.
English
Ensembling outputs from diverse sources is a straightforward yet effective
approach to boost performance. Mixture-of-Agents (MoA) is one such popular
ensemble method that aggregates outputs from multiple different Large Language
Models (LLMs). This paper raises the question in the context of language
models: is mixing different LLMs truly beneficial? We propose Self-MoA -- an
ensemble method that aggregates outputs from only the single top-performing
LLM. Our extensive experiments reveal that, surprisingly, Self-MoA outperforms
standard MoA that mixes different LLMs in a large number of scenarios: Self-MoA
achieves 6.6% improvement over MoA on the AlpacaEval 2.0 benchmark, and an
average of 3.8% improvement across various benchmarks, including MMLU, CRUX,
and MATH. Applying Self-MoA to one of the top-ranking models in AlpacaEval 2.0
directly achieves the new state-of-the-art performance on the leaderboard. To
understand the effectiveness of Self-MoA, we systematically investigate the
trade-off between diversity and quality of outputs under various MoA settings.
We confirm that the MoA performance is rather sensitive to the quality, and
mixing different LLMs often lowers the average quality of the models. To
complement the study, we identify the scenarios where mixing different LLMs
could be helpful. This paper further introduces a sequential version of
Self-MoA, that is capable of aggregating a large number of LLM outputs
on-the-fly over multiple rounds, and is as effective as aggregating all outputs
at once.Summary
AI-Generated Summary