Repenser le Mélange d'Agents : Est-il Bénéfique de Mélanger Différents Grands Modèles de Langage ?
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?
February 2, 2025
Auteurs: Wenzhe Li, Yong Lin, Mengzhou Xia, Chi Jin
cs.AI
Résumé
L'agrégation des sorties de sources diverses est une approche simple mais efficace pour améliorer les performances. Mixture-of-Agents (MoA) est une méthode d'ensemble populaire qui agrège les sorties de plusieurs Modèles de Langage Large (LLM) différents. Ce document soulève la question dans le contexte des modèles de langage : mélanger différents LLM est-il vraiment bénéfique ? Nous proposons Self-MoA - une méthode d'ensemble qui agrège les sorties uniquement du LLM le plus performant. Nos expériences approfondies révèlent que, de manière surprenante, Self-MoA surpasse MoA standard qui mélange différents LLM dans un grand nombre de scénarios : Self-MoA obtient une amélioration de 6,6 % par rapport à MoA sur le benchmark AlpacaEval 2.0, et une amélioration moyenne de 3,8 % sur divers benchmarks, y compris MMLU, CRUX et MATH. En appliquant Self-MoA à l'un des modèles les mieux classés dans AlpacaEval 2.0, nous obtenons directement de nouvelles performances de pointe sur le tableau de classement. Pour comprendre l'efficacité de Self-MoA, nous examinons systématiquement le compromis entre la diversité et la qualité des sorties dans différents paramètres MoA. Nous confirmons que la performance de MoA est assez sensible à la qualité, et que le mélange de différents LLM diminue souvent la qualité moyenne des modèles. Pour compléter l'étude, nous identifions les scénarios où le mélange de différents LLM pourrait être utile. Ce document introduit également une version séquentielle de Self-MoA, capable d'agréger un grand nombre de sorties de LLM en temps réel sur plusieurs tours, et aussi efficace qu'agréger toutes les sorties en une seule fois.
English
Ensembling outputs from diverse sources is a straightforward yet effective
approach to boost performance. Mixture-of-Agents (MoA) is one such popular
ensemble method that aggregates outputs from multiple different Large Language
Models (LLMs). This paper raises the question in the context of language
models: is mixing different LLMs truly beneficial? We propose Self-MoA -- an
ensemble method that aggregates outputs from only the single top-performing
LLM. Our extensive experiments reveal that, surprisingly, Self-MoA outperforms
standard MoA that mixes different LLMs in a large number of scenarios: Self-MoA
achieves 6.6% improvement over MoA on the AlpacaEval 2.0 benchmark, and an
average of 3.8% improvement across various benchmarks, including MMLU, CRUX,
and MATH. Applying Self-MoA to one of the top-ranking models in AlpacaEval 2.0
directly achieves the new state-of-the-art performance on the leaderboard. To
understand the effectiveness of Self-MoA, we systematically investigate the
trade-off between diversity and quality of outputs under various MoA settings.
We confirm that the MoA performance is rather sensitive to the quality, and
mixing different LLMs often lowers the average quality of the models. To
complement the study, we identify the scenarios where mixing different LLMs
could be helpful. This paper further introduces a sequential version of
Self-MoA, that is capable of aggregating a large number of LLM outputs
on-the-fly over multiple rounds, and is as effective as aggregating all outputs
at once.Summary
AI-Generated Summary