ChatPaper.aiChatPaper

Multi-Agent Kollaborative Datenauswahl zur effizienten LLM-Vortrainierung

Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

October 10, 2024
Autoren: Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He
cs.AI

Zusammenfassung

Eine effiziente Datenauswahl ist entscheidend, um das Pretraining großer Sprachmodelle (LLMs) zu beschleunigen. Obwohl verschiedene Methoden vorgeschlagen wurden, um die Daten-Effizienz zu verbessern, hat nur begrenzte Forschung die inhärenten Konflikte zwischen diesen Ansätzen zur optimalen Datenauswahl für das Pretraining von LLMs behandelt. Um dieses Problem anzugehen, schlagen wir einen neuartigen Multi-Agenten-kollaborativen Datenauswahlmechanismus vor. In diesem Rahmen fungiert jede Datenauswahlmethode als unabhängiger Agent, und eine Agentenkonsole ist konzipiert, um die Informationen aller Agenten während des gesamten LLM-Trainingsprozesses dynamisch zu integrieren. Wir führen umfangreiche empirische Studien durch, um unser Multi-Agenten-Framework zu bewerten. Die experimentellen Ergebnisse zeigen, dass unser Ansatz die Dateneffizienz signifikant verbessert, die Konvergenz im LLM-Training beschleunigt und im Vergleich zu den modernsten Methoden einen durchschnittlichen Leistungsgewinn von 10,5% bei mehreren Sprachmodell-Benchmarks erzielt.
English
Efficient data selection is crucial to accelerate the pretraining of large language models (LLMs). While various methods have been proposed to enhance data efficiency, limited research has addressed the inherent conflicts between these approaches to achieve optimal data selection for LLM pretraining. To tackle this problem, we propose a novel multi-agent collaborative data selection mechanism. In this framework, each data selection method serves as an independent agent, and an agent console is designed to dynamically integrate the information from all agents throughout the LLM training process. We conduct extensive empirical studies to evaluate our multi-agent framework. The experimental results demonstrate that our approach significantly improves data efficiency, accelerates convergence in LLM training, and achieves an average performance gain of 10.5% across multiple language model benchmarks compared to the state-of-the-art methods.

Summary

AI-Generated Summary

PDF202November 16, 2024