Adaptation multi-agent : Amélioration personnelle avec des chaînes de raisonnement diverses
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
January 10, 2025
Auteurs: Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch
cs.AI
Résumé
Les grands modèles de langage (LLM) ont atteint des performances remarquables ces dernières années, mais sont fondamentalement limités par les données d'entraînement sous-jacentes. Pour améliorer les modèles au-delà des données d'entraînement, des travaux récents ont exploré comment les LLM peuvent être utilisés pour générer des données synthétiques en vue d'une amélioration autonome. Cependant, les étapes successives d'amélioration autonome peuvent atteindre un point de rendements décroissants. Dans ce travail, nous proposons une approche complémentaire vers l'amélioration autonome où le fine-tuning est appliqué à une société multi-agents de modèles de langage. Un groupe de modèles de langage, tous partant du même modèle de base, est spécialisé de manière indépendante en mettant à jour chacun d'eux à l'aide de données générées par des interactions multi-agents entre les modèles. En formant chaque modèle sur des ensembles de données indépendants, nous illustrons comment cette approche permet la spécialisation à travers les modèles et la diversification sur l'ensemble des modèles. En conséquence, notre système global est capable de préserver des chaînes de raisonnement diverses et de s'améliorer de manière autonome sur de nombreux cycles de fine-tuning de plus que les méthodes d'amélioration autonome à agent unique. Nous illustrons quantitativement l'efficacité de l'approche à travers une large gamme de tâches de raisonnement.
English
Large language models (LLMs) have achieved remarkable performance in recent
years but are fundamentally limited by the underlying training data. To improve
models beyond the training data, recent works have explored how LLMs can be
used to generate synthetic data for autonomous self-improvement. However,
successive steps of self-improvement can reach a point of diminishing returns.
In this work, we propose a complementary approach towards self-improvement
where finetuning is applied to a multiagent society of language models. A group
of language models, all starting from the same base model, are independently
specialized by updating each one using data generated through multiagent
interactions among the models. By training each model on independent sets of
data, we illustrate how this approach enables specialization across models and
diversification over the set of models. As a result, our overall system is able
to preserve diverse reasoning chains and autonomously improve over many more
rounds of fine-tuning than single-agent self-improvement methods. We
quantitatively illustrate the efficacy of the approach across a wide suite of
reasoning tasks.Summary
AI-Generated Summary