Reconsiderando la Mezcla de Agentes: ¿Es Beneficioso Mezclar Diferentes Modelos de Lenguaje Grandes?
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?
February 2, 2025
Autores: Wenzhe Li, Yong Lin, Mengzhou Xia, Chi Jin
cs.AI
Resumen
La combinación de salidas de diversas fuentes es un enfoque sencillo pero efectivo para mejorar el rendimiento. Mixture-of-Agents (MoA) es un método de conjunto popular que agrega salidas de múltiples Modelos de Lenguaje Grandes (LLMs) diferentes. Este documento plantea la pregunta en el contexto de los modelos de lenguaje: ¿es verdaderamente beneficioso mezclar diferentes LLMs? Proponemos Self-MoA, un método de conjunto que agrega salidas solo del LLM de mejor rendimiento. Nuestros experimentos extensos revelan que, sorprendentemente, Self-MoA supera a MoA estándar que mezcla diferentes LLMs en un gran número de escenarios: Self-MoA logra una mejora del 6.6% sobre MoA en el benchmark AlpacaEval 2.0, y un promedio de mejora del 3.8% en varios benchmarks, incluidos MMLU, CRUX y MATH. Aplicar Self-MoA a uno de los modelos mejor clasificados en AlpacaEval 2.0 logra directamente el nuevo rendimiento líder en la tabla de clasificación. Para comprender la efectividad de Self-MoA, investigamos sistemáticamente el equilibrio entre la diversidad y la calidad de las salidas en varios ajustes de MoA. Confirmamos que el rendimiento de MoA es bastante sensible a la calidad, y mezclar diferentes LLMs a menudo disminuye la calidad promedio de los modelos. Para complementar el estudio, identificamos los escenarios donde mezclar diferentes LLMs podría ser útil. Este documento también presenta una versión secuencial de Self-MoA, capaz de agregar un gran número de salidas de LLM sobre la marcha durante múltiples rondas, y es tan efectiva como agregar todas las salidas a la vez.
English
Ensembling outputs from diverse sources is a straightforward yet effective
approach to boost performance. Mixture-of-Agents (MoA) is one such popular
ensemble method that aggregates outputs from multiple different Large Language
Models (LLMs). This paper raises the question in the context of language
models: is mixing different LLMs truly beneficial? We propose Self-MoA -- an
ensemble method that aggregates outputs from only the single top-performing
LLM. Our extensive experiments reveal that, surprisingly, Self-MoA outperforms
standard MoA that mixes different LLMs in a large number of scenarios: Self-MoA
achieves 6.6% improvement over MoA on the AlpacaEval 2.0 benchmark, and an
average of 3.8% improvement across various benchmarks, including MMLU, CRUX,
and MATH. Applying Self-MoA to one of the top-ranking models in AlpacaEval 2.0
directly achieves the new state-of-the-art performance on the leaderboard. To
understand the effectiveness of Self-MoA, we systematically investigate the
trade-off between diversity and quality of outputs under various MoA settings.
We confirm that the MoA performance is rather sensitive to the quality, and
mixing different LLMs often lowers the average quality of the models. To
complement the study, we identify the scenarios where mixing different LLMs
could be helpful. This paper further introduces a sequential version of
Self-MoA, that is capable of aggregating a large number of LLM outputs
on-the-fly over multiple rounds, and is as effective as aggregating all outputs
at once.Summary
AI-Generated Summary