Adaptation multi-agent : Amélioration personnelle avec des chaînes de raisonnement diverses

papers.abstract

Les grands modèles de langage (LLM) ont atteint des performances remarquables ces dernières années, mais sont fondamentalement limités par les données d'entraînement sous-jacentes. Pour améliorer les modèles au-delà des données d'entraînement, des travaux récents ont exploré comment les LLM peuvent être utilisés pour générer des données synthétiques en vue d'une amélioration autonome. Cependant, les étapes successives d'amélioration autonome peuvent atteindre un point de rendements décroissants. Dans ce travail, nous proposons une approche complémentaire vers l'amélioration autonome où le fine-tuning est appliqué à une société multi-agents de modèles de langage. Un groupe de modèles de langage, tous partant du même modèle de base, est spécialisé de manière indépendante en mettant à jour chacun d'eux à l'aide de données générées par des interactions multi-agents entre les modèles. En formant chaque modèle sur des ensembles de données indépendants, nous illustrons comment cette approche permet la spécialisation à travers les modèles et la diversification sur l'ensemble des modèles. En conséquence, notre système global est capable de préserver des chaînes de raisonnement diverses et de s'améliorer de manière autonome sur de nombreux cycles de fine-tuning de plus que les méthodes d'amélioration autonome à agent unique. Nous illustrons quantitativement l'efficacité de l'approche à travers une large gamme de tâches de raisonnement.

English

Large language models (LLMs) have achieved remarkable performance in recent years but are fundamentally limited by the underlying training data. To improve models beyond the training data, recent works have explored how LLMs can be used to generate synthetic data for autonomous self-improvement. However, successive steps of self-improvement can reach a point of diminishing returns. In this work, we propose a complementary approach towards self-improvement where finetuning is applied to a multiagent society of language models. A group of language models, all starting from the same base model, are independently specialized by updating each one using data generated through multiagent interactions among the models. By training each model on independent sets of data, we illustrate how this approach enables specialization across models and diversification over the set of models. As a result, our overall system is able to preserve diverse reasoning chains and autonomously improve over many more rounds of fine-tuning than single-agent self-improvement methods. We quantitatively illustrate the efficacy of the approach across a wide suite of reasoning tasks.

Adaptation multi-agent : Amélioration personnelle avec des chaînes de raisonnement diverses

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

papers.abstract

Support