Seleção Colaborativa de Dados entre Múltiplos Agentes para Pré-treinamento Eficiente de LLM
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining
October 10, 2024
Autores: Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He
cs.AI
Resumo
A seleção eficiente de dados é crucial para acelerar o pré-treinamento de grandes modelos de linguagem (LLMs). Embora vários métodos tenham sido propostos para aprimorar a eficiência dos dados, poucas pesquisas abordaram os conflitos inerentes entre essas abordagens para alcançar uma seleção de dados ideal para o pré-treinamento de LLMs. Para enfrentar esse problema, propomos um novo mecanismo de seleção de dados colaborativo multiagente. Neste framework, cada método de seleção de dados atua como um agente independente, e um console de agente é projetado para integrar dinamicamente as informações de todos os agentes ao longo do processo de treinamento do LLM. Realizamos extensivos estudos empíricos para avaliar nosso framework multiagente. Os resultados experimentais demonstram que nossa abordagem melhora significativamente a eficiência dos dados, acelera a convergência no treinamento do LLM e alcança um ganho médio de desempenho de 10,5% em múltiplos benchmarks de modelos de linguagem em comparação com os métodos de ponta.
English
Efficient data selection is crucial to accelerate the pretraining of large
language models (LLMs). While various methods have been proposed to enhance
data efficiency, limited research has addressed the inherent conflicts between
these approaches to achieve optimal data selection for LLM pretraining. To
tackle this problem, we propose a novel multi-agent collaborative data
selection mechanism. In this framework, each data selection method serves as an
independent agent, and an agent console is designed to dynamically integrate
the information from all agents throughout the LLM training process. We conduct
extensive empirical studies to evaluate our multi-agent framework. The
experimental results demonstrate that our approach significantly improves data
efficiency, accelerates convergence in LLM training, and achieves an average
performance gain of 10.5% across multiple language model benchmarks compared to
the state-of-the-art methods.Summary
AI-Generated Summary