A Mistura de Agentes Aprimora as Capacidades dos Modelos de Linguagem de Grande Escala
Mixture-of-Agents Enhances Large Language Model Capabilities
June 7, 2024
Autores: Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou
cs.AI
Resumo
Os avanços recentes em modelos de linguagem de grande escala (LLMs) demonstram capacidades substanciais em tarefas de compreensão e geração de linguagem natural. Com o crescente número de LLMs, como aproveitar o conhecimento coletivo de múltiplos LLMs é uma direção aberta e promissora. Visando esse objetivo, propomos uma nova abordagem que aproveita os pontos fortes coletivos de múltiplos LLMs por meio de uma metodologia de Mistura de Agentes (MoA, do inglês Mixture-of-Agents). Em nossa abordagem, construímos uma arquitetura MoA em camadas, onde cada camada é composta por múltiplos agentes LLM. Cada agente utiliza todas as saídas dos agentes da camada anterior como informações auxiliares para gerar sua resposta. Os modelos MoA alcançam desempenho de ponta no AlpacaEval 2.0, MT-Bench e FLASK, superando o GPT-4 Omni. Por exemplo, nosso MoA, utilizando apenas LLMs de código aberto, lidera o AlpacaEval 2.0 com uma margem substancial, alcançando uma pontuação de 65,1% em comparação com 57,5% do GPT-4 Omni.
English
Recent advances in large language models (LLMs) demonstrate substantial
capabilities in natural language understanding and generation tasks. With the
growing number of LLMs, how to harness the collective expertise of multiple
LLMs is an exciting open direction. Toward this goal, we propose a new approach
that leverages the collective strengths of multiple LLMs through a
Mixture-of-Agents (MoA) methodology. In our approach, we construct a layered
MoA architecture wherein each layer comprises multiple LLM agents. Each agent
takes all the outputs from agents in the previous layer as auxiliary
information in generating its response. MoA models achieves state-of-art
performance on AlpacaEval 2.0, MT-Bench and FLASK, surpassing GPT-4 Omni. For
example, our MoA using only open-source LLMs is the leader of AlpacaEval 2.0 by
a substantial gap, achieving a score of 65.1% compared to 57.5% by GPT-4 Omni.