Seleção Colaborativa de Dados entre Múltiplos Agentes para Pré-treinamento Eficiente de LLM

Resumo

A seleção eficiente de dados é crucial para acelerar o pré-treinamento de grandes modelos de linguagem (LLMs). Embora vários métodos tenham sido propostos para aprimorar a eficiência dos dados, poucas pesquisas abordaram os conflitos inerentes entre essas abordagens para alcançar uma seleção de dados ideal para o pré-treinamento de LLMs. Para enfrentar esse problema, propomos um novo mecanismo de seleção de dados colaborativo multiagente. Neste framework, cada método de seleção de dados atua como um agente independente, e um console de agente é projetado para integrar dinamicamente as informações de todos os agentes ao longo do processo de treinamento do LLM. Realizamos extensivos estudos empíricos para avaliar nosso framework multiagente. Os resultados experimentais demonstram que nossa abordagem melhora significativamente a eficiência dos dados, acelera a convergência no treinamento do LLM e alcança um ganho médio de desempenho de 10,5% em múltiplos benchmarks de modelos de linguagem em comparação com os métodos de ponta.

English

Efficient data selection is crucial to accelerate the pretraining of large language models (LLMs). While various methods have been proposed to enhance data efficiency, limited research has addressed the inherent conflicts between these approaches to achieve optimal data selection for LLM pretraining. To tackle this problem, we propose a novel multi-agent collaborative data selection mechanism. In this framework, each data selection method serves as an independent agent, and an agent console is designed to dynamically integrate the information from all agents throughout the LLM training process. We conduct extensive empirical studies to evaluate our multi-agent framework. The experimental results demonstrate that our approach significantly improves data efficiency, accelerates convergence in LLM training, and achieves an average performance gain of 10.5% across multiple language model benchmarks compared to the state-of-the-art methods.

Seleção Colaborativa de Dados entre Múltiplos Agentes para Pré-treinamento Eficiente de LLM

Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Resumo

Support