ChatPaper.aiChatPaper

Seleção Colaborativa de Dados entre Múltiplos Agentes para Pré-treinamento Eficiente de LLM

Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

October 10, 2024
Autores: Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He
cs.AI

Resumo

A seleção eficiente de dados é crucial para acelerar o pré-treinamento de grandes modelos de linguagem (LLMs). Embora vários métodos tenham sido propostos para aprimorar a eficiência dos dados, poucas pesquisas abordaram os conflitos inerentes entre essas abordagens para alcançar uma seleção de dados ideal para o pré-treinamento de LLMs. Para enfrentar esse problema, propomos um novo mecanismo de seleção de dados colaborativo multiagente. Neste framework, cada método de seleção de dados atua como um agente independente, e um console de agente é projetado para integrar dinamicamente as informações de todos os agentes ao longo do processo de treinamento do LLM. Realizamos extensivos estudos empíricos para avaliar nosso framework multiagente. Os resultados experimentais demonstram que nossa abordagem melhora significativamente a eficiência dos dados, acelera a convergência no treinamento do LLM e alcança um ganho médio de desempenho de 10,5% em múltiplos benchmarks de modelos de linguagem em comparação com os métodos de ponta.
English
Efficient data selection is crucial to accelerate the pretraining of large language models (LLMs). While various methods have been proposed to enhance data efficiency, limited research has addressed the inherent conflicts between these approaches to achieve optimal data selection for LLM pretraining. To tackle this problem, we propose a novel multi-agent collaborative data selection mechanism. In this framework, each data selection method serves as an independent agent, and an agent console is designed to dynamically integrate the information from all agents throughout the LLM training process. We conduct extensive empirical studies to evaluate our multi-agent framework. The experimental results demonstrate that our approach significantly improves data efficiency, accelerates convergence in LLM training, and achieves an average performance gain of 10.5% across multiple language model benchmarks compared to the state-of-the-art methods.

Summary

AI-Generated Summary

PDF202November 16, 2024