Multiagent Finetuning: Zelfverbetering met Diverse Redeneerketens
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
January 10, 2025
Auteurs: Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben de afgelopen jaren opmerkelijke prestaties behaald, maar worden fundamenteel beperkt door de onderliggende trainingsdata. Om modellen te verbeteren buiten de trainingsdata, hebben recente werken onderzocht hoe LLM's kunnen worden gebruikt om synthetische data te genereren voor autonome zelfverbetering. Echter, opeenvolgende stappen van zelfverbetering kunnen een punt van afnemende meeropbrengsten bereiken. In dit werk stellen we een aanvullende benadering voor zelfverbetering voor waarbij fine-tuning wordt toegepast op een multi-agent samenleving van taalmodellen. Een groep taalmodellen, allemaal startend vanuit hetzelfde basismodel, wordt onafhankelijk gespecialiseerd door elk model bij te werken met data gegenereerd door multi-agent interacties tussen de modellen. Door elk model te trainen op onafhankelijke datasets, illustreren we hoe deze benadering specialisatie over modellen mogelijk maakt en diversificatie over de set van modellen. Als gevolg hiervan is ons algehele systeem in staat diverse redeneringsketens te behouden en autonoom te verbeteren over veel meer rondes van fine-tuning dan methoden voor zelfverbetering met één agent. We illustreren kwantitatief de doeltreffendheid van de benadering over een breed scala van redeneertaken.
English
Large language models (LLMs) have achieved remarkable performance in recent
years but are fundamentally limited by the underlying training data. To improve
models beyond the training data, recent works have explored how LLMs can be
used to generate synthetic data for autonomous self-improvement. However,
successive steps of self-improvement can reach a point of diminishing returns.
In this work, we propose a complementary approach towards self-improvement
where finetuning is applied to a multiagent society of language models. A group
of language models, all starting from the same base model, are independently
specialized by updating each one using data generated through multiagent
interactions among the models. By training each model on independent sets of
data, we illustrate how this approach enables specialization across models and
diversification over the set of models. As a result, our overall system is able
to preserve diverse reasoning chains and autonomously improve over many more
rounds of fine-tuning than single-agent self-improvement methods. We
quantitatively illustrate the efficacy of the approach across a wide suite of
reasoning tasks.Summary
AI-Generated Summary