ChatPaper.aiChatPaper

Переосмысление Смеси Агентов: Является ли Смешивание Различных Больших Языковых Моделей Полезным?

Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?

February 2, 2025
Авторы: Wenzhe Li, Yong Lin, Mengzhou Xia, Chi Jin
cs.AI

Аннотация

Совмещение результатов из различных источников - простой, но эффективный подход для улучшения производительности. Смесь агентов (MoA) - один из таких популярных методов ансамбля, который агрегирует результаты из нескольких различных крупных языковых моделей (LLM). В данной статье поднимается вопрос в контексте языковых моделей: действительно ли смешивание различных LLM полезно? Мы предлагаем Self-MoA - метод ансамбля, который агрегирует результаты только от одной лучшей LLM. Наши обширные эксперименты показывают, что, удивительным образом, Self-MoA превосходит стандартный MoA, который смешивает различные LLM, во многих сценариях: Self-MoA достигает улучшения на 6.6% по сравнению с MoA на бенчмарке AlpacaEval 2.0, и в среднем на 3.8% по различным бенчмаркам, включая MMLU, CRUX и MATH. Применение Self-MoA к одной из лучших моделей в AlpacaEval 2.0 напрямую приводит к новому рекордному результату в рейтинге. Для понимания эффективности Self-MoA мы систематически исследуем компромисс между разнообразием и качеством результатов в различных настройках MoA. Мы подтверждаем, что производительность MoA довольно чувствительна к качеству, и смешивание различных LLM часто снижает среднее качество моделей. Для дополнения исследования мы выявляем сценарии, в которых смешивание различных LLM может быть полезным. В данной статье также представлена последовательная версия Self-MoA, способная агрегировать большое количество результатов LLM на лету за несколько раундов, и также эффективная, как агрегирование всех результатов сразу.
English
Ensembling outputs from diverse sources is a straightforward yet effective approach to boost performance. Mixture-of-Agents (MoA) is one such popular ensemble method that aggregates outputs from multiple different Large Language Models (LLMs). This paper raises the question in the context of language models: is mixing different LLMs truly beneficial? We propose Self-MoA -- an ensemble method that aggregates outputs from only the single top-performing LLM. Our extensive experiments reveal that, surprisingly, Self-MoA outperforms standard MoA that mixes different LLMs in a large number of scenarios: Self-MoA achieves 6.6% improvement over MoA on the AlpacaEval 2.0 benchmark, and an average of 3.8% improvement across various benchmarks, including MMLU, CRUX, and MATH. Applying Self-MoA to one of the top-ranking models in AlpacaEval 2.0 directly achieves the new state-of-the-art performance on the leaderboard. To understand the effectiveness of Self-MoA, we systematically investigate the trade-off between diversity and quality of outputs under various MoA settings. We confirm that the MoA performance is rather sensitive to the quality, and mixing different LLMs often lowers the average quality of the models. To complement the study, we identify the scenarios where mixing different LLMs could be helpful. This paper further introduces a sequential version of Self-MoA, that is capable of aggregating a large number of LLM outputs on-the-fly over multiple rounds, and is as effective as aggregating all outputs at once.

Summary

AI-Generated Summary

PDF134February 5, 2025