Repenser le Mélange d'Agents : Est-il Bénéfique de Mélanger Différents Grands Modèles de Langage ?

papers.abstract

L'agrégation des sorties de sources diverses est une approche simple mais efficace pour améliorer les performances. Mixture-of-Agents (MoA) est une méthode d'ensemble populaire qui agrège les sorties de plusieurs Modèles de Langage Large (LLM) différents. Ce document soulève la question dans le contexte des modèles de langage : mélanger différents LLM est-il vraiment bénéfique ? Nous proposons Self-MoA - une méthode d'ensemble qui agrège les sorties uniquement du LLM le plus performant. Nos expériences approfondies révèlent que, de manière surprenante, Self-MoA surpasse MoA standard qui mélange différents LLM dans un grand nombre de scénarios : Self-MoA obtient une amélioration de 6,6 % par rapport à MoA sur le benchmark AlpacaEval 2.0, et une amélioration moyenne de 3,8 % sur divers benchmarks, y compris MMLU, CRUX et MATH. En appliquant Self-MoA à l'un des modèles les mieux classés dans AlpacaEval 2.0, nous obtenons directement de nouvelles performances de pointe sur le tableau de classement. Pour comprendre l'efficacité de Self-MoA, nous examinons systématiquement le compromis entre la diversité et la qualité des sorties dans différents paramètres MoA. Nous confirmons que la performance de MoA est assez sensible à la qualité, et que le mélange de différents LLM diminue souvent la qualité moyenne des modèles. Pour compléter l'étude, nous identifions les scénarios où le mélange de différents LLM pourrait être utile. Ce document introduit également une version séquentielle de Self-MoA, capable d'agréger un grand nombre de sorties de LLM en temps réel sur plusieurs tours, et aussi efficace qu'agréger toutes les sorties en une seule fois.

English

Ensembling outputs from diverse sources is a straightforward yet effective approach to boost performance. Mixture-of-Agents (MoA) is one such popular ensemble method that aggregates outputs from multiple different Large Language Models (LLMs). This paper raises the question in the context of language models: is mixing different LLMs truly beneficial? We propose Self-MoA -- an ensemble method that aggregates outputs from only the single top-performing LLM. Our extensive experiments reveal that, surprisingly, Self-MoA outperforms standard MoA that mixes different LLMs in a large number of scenarios: Self-MoA achieves 6.6% improvement over MoA on the AlpacaEval 2.0 benchmark, and an average of 3.8% improvement across various benchmarks, including MMLU, CRUX, and MATH. Applying Self-MoA to one of the top-ranking models in AlpacaEval 2.0 directly achieves the new state-of-the-art performance on the leaderboard. To understand the effectiveness of Self-MoA, we systematically investigate the trade-off between diversity and quality of outputs under various MoA settings. We confirm that the MoA performance is rather sensitive to the quality, and mixing different LLMs often lowers the average quality of the models. To complement the study, we identify the scenarios where mixing different LLMs could be helpful. This paper further introduces a sequential version of Self-MoA, that is capable of aggregating a large number of LLM outputs on-the-fly over multiple rounds, and is as effective as aggregating all outputs at once.

Repenser le Mélange d'Agents : Est-il Bénéfique de Mélanger Différents Grands Modèles de Langage ?

Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?

papers.abstract

Support