ChatPaper.aiChatPaper

Mixture-of-Agents verbetert de mogelijkheden van grote taalmodellen.

Mixture-of-Agents Enhances Large Language Model Capabilities

June 7, 2024
Auteurs: Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLMs) tonen aanzienlijke mogelijkheden op het gebied van natuurlijke taalverwerking en generatie. Met het groeiende aantal LLMs is het benutten van de collectieve expertise van meerdere LLMs een spannende en open onderzoeksrichting. Om dit doel te bereiken, stellen we een nieuwe aanpak voor die de gezamenlijke sterktes van meerdere LLMs benut via een Mixture-of-Agents (MoA)-methodologie. In onze aanpak construeren we een gelaagde MoA-architectuur waarin elke laag bestaat uit meerdere LLM-agents. Elke agent gebruikt alle uitvoeren van agents in de vorige laag als aanvullende informatie bij het genereren van zijn reactie. MoA-modellen behalen state-of-the-art prestaties op AlpacaEval 2.0, MT-Bench en FLASK, en overtreffen GPT-4 Omni. Zo is onze MoA, die alleen open-source LLMs gebruikt, de leider op AlpacaEval 2.0 met een aanzienlijke voorsprong, met een score van 65,1% vergeleken met 57,5% van GPT-4 Omni.
English
Recent advances in large language models (LLMs) demonstrate substantial capabilities in natural language understanding and generation tasks. With the growing number of LLMs, how to harness the collective expertise of multiple LLMs is an exciting open direction. Toward this goal, we propose a new approach that leverages the collective strengths of multiple LLMs through a Mixture-of-Agents (MoA) methodology. In our approach, we construct a layered MoA architecture wherein each layer comprises multiple LLM agents. Each agent takes all the outputs from agents in the previous layer as auxiliary information in generating its response. MoA models achieves state-of-art performance on AlpacaEval 2.0, MT-Bench and FLASK, surpassing GPT-4 Omni. For example, our MoA using only open-source LLMs is the leader of AlpacaEval 2.0 by a substantial gap, achieving a score of 65.1% compared to 57.5% by GPT-4 Omni.
PDF594February 7, 2026