ChatPaper.aiChatPaper

Heroverwegen van Mengsel-van-Agenten: Is het Mengen van Verschillende Grote Taalmodellen Voordelig?

Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?

February 2, 2025
Auteurs: Wenzhe Li, Yong Lin, Mengzhou Xia, Chi Jin
cs.AI

Samenvatting

Het combineren van uitvoer van diverse bronnen is een eenvoudige maar effectieve aanpak om de prestaties te verbeteren. Mixture-of-Agents (MoA) is zo'n populaire ensemble methode die uitvoer van meerdere verschillende Grote Taalmodellen (GTM's) samenbrengt. Dit artikel werpt de vraag op in de context van taalmodellen: is het mengen van verschillende GTM's werkelijk voordelig? Wij stellen Self-MoA voor - een ensemble methode die uitvoer van alleen het best presterende GTM samenbrengt. Onze uitgebreide experimenten tonen aan dat, verrassend genoeg, Self-MoA beter presteert dan standaard MoA die verschillende GTM's mengt in een groot aantal scenario's: Self-MoA behaalt een verbetering van 6,6% ten opzichte van MoA op de AlpacaEval 2.0 benchmark, en een gemiddelde verbetering van 3,8% over verschillende benchmarks, waaronder MMLU, CRUX en MATH. Door Self-MoA toe te passen op een van de best presterende modellen in AlpacaEval 2.0 behalen we direct de nieuwe state-of-the-art prestatie op het scorebord. Om de effectiviteit van Self-MoA te begrijpen, onderzoeken we systematisch de afweging tussen diversiteit en kwaliteit van uitvoer onder verschillende MoA-instellingen. We bevestigen dat de prestatie van MoA nogal gevoelig is voor de kwaliteit, en dat het mengen van verschillende GTM's vaak de gemiddelde kwaliteit van de modellen verlaagt. Als aanvulling op de studie introduceren we een sequentiële versie van Self-MoA, die in staat is om een groot aantal GTM-uitvoer on-the-fly samen te brengen over meerdere rondes, en even effectief is als het samenbrengen van alle uitvoer in één keer.
English
Ensembling outputs from diverse sources is a straightforward yet effective approach to boost performance. Mixture-of-Agents (MoA) is one such popular ensemble method that aggregates outputs from multiple different Large Language Models (LLMs). This paper raises the question in the context of language models: is mixing different LLMs truly beneficial? We propose Self-MoA -- an ensemble method that aggregates outputs from only the single top-performing LLM. Our extensive experiments reveal that, surprisingly, Self-MoA outperforms standard MoA that mixes different LLMs in a large number of scenarios: Self-MoA achieves 6.6% improvement over MoA on the AlpacaEval 2.0 benchmark, and an average of 3.8% improvement across various benchmarks, including MMLU, CRUX, and MATH. Applying Self-MoA to one of the top-ranking models in AlpacaEval 2.0 directly achieves the new state-of-the-art performance on the leaderboard. To understand the effectiveness of Self-MoA, we systematically investigate the trade-off between diversity and quality of outputs under various MoA settings. We confirm that the MoA performance is rather sensitive to the quality, and mixing different LLMs often lowers the average quality of the models. To complement the study, we identify the scenarios where mixing different LLMs could be helpful. This paper further introduces a sequential version of Self-MoA, that is capable of aggregating a large number of LLM outputs on-the-fly over multiple rounds, and is as effective as aggregating all outputs at once.

Summary

AI-Generated Summary

PDF134February 5, 2025