La Mezcla-de-Agentes Potencia las Capacidades de los Modelos de Lenguaje de Gran Escala
Mixture-of-Agents Enhances Large Language Model Capabilities
June 7, 2024
Autores: Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran capacidades sustanciales en tareas de comprensión y generación de lenguaje natural. Con el creciente número de LLMs, cómo aprovechar la experiencia colectiva de múltiples LLMs es una dirección abierta y emocionante. Con este objetivo, proponemos un nuevo enfoque que aprovecha las fortalezas colectivas de múltiples LLMs mediante una metodología de Mezcla de Agentes (MoA, por sus siglas en inglés). En nuestro enfoque, construimos una arquitectura MoA en capas donde cada capa comprende múltiples agentes LLM. Cada agente toma todas las salidas de los agentes en la capa anterior como información auxiliar para generar su respuesta. Los modelos MoA logran un rendimiento de vanguardia en AlpacaEval 2.0, MT-Bench y FLASK, superando a GPT-4 Omni. Por ejemplo, nuestro MoA, que utiliza únicamente LLMs de código abierto, lidera AlpacaEval 2.0 con una brecha sustancial, alcanzando una puntuación del 65.1% en comparación con el 57.5% de GPT-4 Omni.
English
Recent advances in large language models (LLMs) demonstrate substantial
capabilities in natural language understanding and generation tasks. With the
growing number of LLMs, how to harness the collective expertise of multiple
LLMs is an exciting open direction. Toward this goal, we propose a new approach
that leverages the collective strengths of multiple LLMs through a
Mixture-of-Agents (MoA) methodology. In our approach, we construct a layered
MoA architecture wherein each layer comprises multiple LLM agents. Each agent
takes all the outputs from agents in the previous layer as auxiliary
information in generating its response. MoA models achieves state-of-art
performance on AlpacaEval 2.0, MT-Bench and FLASK, surpassing GPT-4 Omni. For
example, our MoA using only open-source LLMs is the leader of AlpacaEval 2.0 by
a substantial gap, achieving a score of 65.1% compared to 57.5% by GPT-4 Omni.Summary
AI-Generated Summary