Sélection collaborative de données multi-agents pour un pré-entraînement LLM efficace
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining
October 10, 2024
Auteurs: Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He
cs.AI
Résumé
La sélection efficace des données est cruciale pour accélérer la préformation des grands modèles de langage (GML). Bien que diverses méthodes aient été proposées pour améliorer l'efficacité des données, peu de recherches ont abordé les conflits inhérents entre ces approches pour parvenir à une sélection optimale des données pour la préformation des GML. Pour résoudre ce problème, nous proposons un nouveau mécanisme de sélection de données collaboratif multi-agent. Dans ce cadre, chaque méthode de sélection de données agit comme un agent indépendant, et une console d'agent est conçue pour intégrer dynamiquement les informations de tous les agents tout au long du processus de formation des GML. Nous menons des études empiriques approfondies pour évaluer notre cadre multi-agent. Les résultats expérimentaux montrent que notre approche améliore significativement l'efficacité des données, accélère la convergence dans la formation des GML et obtient un gain de performance moyen de 10,5 % sur plusieurs référentiels de modèles de langage par rapport aux méthodes de pointe.
English
Efficient data selection is crucial to accelerate the pretraining of large
language models (LLMs). While various methods have been proposed to enhance
data efficiency, limited research has addressed the inherent conflicts between
these approaches to achieve optimal data selection for LLM pretraining. To
tackle this problem, we propose a novel multi-agent collaborative data
selection mechanism. In this framework, each data selection method serves as an
independent agent, and an agent console is designed to dynamically integrate
the information from all agents throughout the LLM training process. We conduct
extensive empirical studies to evaluate our multi-agent framework. The
experimental results demonstrate that our approach significantly improves data
efficiency, accelerates convergence in LLM training, and achieves an average
performance gain of 10.5% across multiple language model benchmarks compared to
the state-of-the-art methods.Summary
AI-Generated Summary