Reconsiderando la Mezcla de Agentes: ¿Es Beneficioso Mezclar Diferentes Modelos de Lenguaje Grandes?

Resumen

La combinación de salidas de diversas fuentes es un enfoque sencillo pero efectivo para mejorar el rendimiento. Mixture-of-Agents (MoA) es un método de conjunto popular que agrega salidas de múltiples Modelos de Lenguaje Grandes (LLMs) diferentes. Este documento plantea la pregunta en el contexto de los modelos de lenguaje: ¿es verdaderamente beneficioso mezclar diferentes LLMs? Proponemos Self-MoA, un método de conjunto que agrega salidas solo del LLM de mejor rendimiento. Nuestros experimentos extensos revelan que, sorprendentemente, Self-MoA supera a MoA estándar que mezcla diferentes LLMs en un gran número de escenarios: Self-MoA logra una mejora del 6.6% sobre MoA en el benchmark AlpacaEval 2.0, y un promedio de mejora del 3.8% en varios benchmarks, incluidos MMLU, CRUX y MATH. Aplicar Self-MoA a uno de los modelos mejor clasificados en AlpacaEval 2.0 logra directamente el nuevo rendimiento líder en la tabla de clasificación. Para comprender la efectividad de Self-MoA, investigamos sistemáticamente el equilibrio entre la diversidad y la calidad de las salidas en varios ajustes de MoA. Confirmamos que el rendimiento de MoA es bastante sensible a la calidad, y mezclar diferentes LLMs a menudo disminuye la calidad promedio de los modelos. Para complementar el estudio, identificamos los escenarios donde mezclar diferentes LLMs podría ser útil. Este documento también presenta una versión secuencial de Self-MoA, capaz de agregar un gran número de salidas de LLM sobre la marcha durante múltiples rondas, y es tan efectiva como agregar todas las salidas a la vez.

English

Ensembling outputs from diverse sources is a straightforward yet effective approach to boost performance. Mixture-of-Agents (MoA) is one such popular ensemble method that aggregates outputs from multiple different Large Language Models (LLMs). This paper raises the question in the context of language models: is mixing different LLMs truly beneficial? We propose Self-MoA -- an ensemble method that aggregates outputs from only the single top-performing LLM. Our extensive experiments reveal that, surprisingly, Self-MoA outperforms standard MoA that mixes different LLMs in a large number of scenarios: Self-MoA achieves 6.6% improvement over MoA on the AlpacaEval 2.0 benchmark, and an average of 3.8% improvement across various benchmarks, including MMLU, CRUX, and MATH. Applying Self-MoA to one of the top-ranking models in AlpacaEval 2.0 directly achieves the new state-of-the-art performance on the leaderboard. To understand the effectiveness of Self-MoA, we systematically investigate the trade-off between diversity and quality of outputs under various MoA settings. We confirm that the MoA performance is rather sensitive to the quality, and mixing different LLMs often lowers the average quality of the models. To complement the study, we identify the scenarios where mixing different LLMs could be helpful. This paper further introduces a sequential version of Self-MoA, that is capable of aggregating a large number of LLM outputs on-the-fly over multiple rounds, and is as effective as aggregating all outputs at once.

Reconsiderando la Mezcla de Agentes: ¿Es Beneficioso Mezclar Diferentes Modelos de Lenguaje Grandes?

Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?

Resumen

Support