ChatPaper.aiChatPaper

Neubewertung von Agentenmischungen: Ist die Kombination verschiedener großer Sprachmodelle vorteilhaft?

Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?

February 2, 2025
Autoren: Wenzhe Li, Yong Lin, Mengzhou Xia, Chi Jin
cs.AI

Zusammenfassung

Das Zusammenführen von Ausgaben aus verschiedenen Quellen ist ein einfacher, aber effektiver Ansatz, um die Leistung zu steigern. Mixture-of-Agents (MoA) ist eine solche beliebte Ensemble-Methode, die Ausgaben von mehreren verschiedenen Large Language Models (LLMs) aggregiert. Dieser Artikel wirft die Frage im Kontext von Sprachmodellen auf: Ist es wirklich vorteilhaft, verschiedene LLMs zu mischen? Wir schlagen Self-MoA vor - eine Ensemble-Methode, die Ausgaben nur vom einzelnen leistungsstärksten LLM aggregiert. Unsere umfangreichen Experimente zeigen überraschenderweise, dass Self-MoA in einer Vielzahl von Szenarien die Standard-MoA, die verschiedene LLMs mischt, übertrifft: Self-MoA erzielt eine Verbesserung von 6,6% gegenüber MoA beim AlpacaEval 2.0 Benchmark und durchschnittlich 3,8% Verbesserung über verschiedene Benchmarks, einschließlich MMLU, CRUX und MATH. Die Anwendung von Self-MoA auf eines der bestplatzierten Modelle in AlpacaEval 2.0 erreicht direkt die neue Bestleistung in der Rangliste. Um die Wirksamkeit von Self-MoA zu verstehen, untersuchen wir systematisch den Kompromiss zwischen Vielfalt und Qualität der Ausgaben unter verschiedenen MoA-Einstellungen. Wir bestätigen, dass die Leistung von MoA recht empfindlich gegenüber der Qualität ist und das Mischen verschiedener LLMs oft die durchschnittliche Qualität der Modelle senkt. Um die Studie zu ergänzen, identifizieren wir die Szenarien, in denen das Mischen verschiedener LLMs hilfreich sein könnte. Dieser Artikel stellt außerdem eine sequenzielle Version von Self-MoA vor, die in der Lage ist, eine große Anzahl von LLM-Ausgaben dynamisch über mehrere Runden zusammenzuführen und genauso effektiv ist wie das Zusammenführen aller Ausgaben auf einmal.
English
Ensembling outputs from diverse sources is a straightforward yet effective approach to boost performance. Mixture-of-Agents (MoA) is one such popular ensemble method that aggregates outputs from multiple different Large Language Models (LLMs). This paper raises the question in the context of language models: is mixing different LLMs truly beneficial? We propose Self-MoA -- an ensemble method that aggregates outputs from only the single top-performing LLM. Our extensive experiments reveal that, surprisingly, Self-MoA outperforms standard MoA that mixes different LLMs in a large number of scenarios: Self-MoA achieves 6.6% improvement over MoA on the AlpacaEval 2.0 benchmark, and an average of 3.8% improvement across various benchmarks, including MMLU, CRUX, and MATH. Applying Self-MoA to one of the top-ranking models in AlpacaEval 2.0 directly achieves the new state-of-the-art performance on the leaderboard. To understand the effectiveness of Self-MoA, we systematically investigate the trade-off between diversity and quality of outputs under various MoA settings. We confirm that the MoA performance is rather sensitive to the quality, and mixing different LLMs often lowers the average quality of the models. To complement the study, we identify the scenarios where mixing different LLMs could be helpful. This paper further introduces a sequential version of Self-MoA, that is capable of aggregating a large number of LLM outputs on-the-fly over multiple rounds, and is as effective as aggregating all outputs at once.

Summary

AI-Generated Summary

PDF134February 5, 2025