Selección de Datos Colaborativa entre Múltiples Agentes para el Preentrenamiento Eficiente de LLM
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining
October 10, 2024
Autores: Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He
cs.AI
Resumen
La selección eficiente de datos es crucial para acelerar el preentrenamiento de modelos de lenguaje grandes (MLL). Aunque se han propuesto varios métodos para mejorar la eficiencia de datos, hay una investigación limitada que ha abordado los conflictos inherentes entre estos enfoques para lograr una selección óptima de datos para el preentrenamiento de MLL. Para abordar este problema, proponemos un mecanismo novedoso de selección de datos colaborativo multiagente. En este marco, cada método de selección de datos actúa como un agente independiente, y se diseña una consola de agentes para integrar dinámicamente la información de todos los agentes a lo largo del proceso de entrenamiento de MLL. Realizamos extensos estudios empíricos para evaluar nuestro marco multiagente. Los resultados experimentales demuestran que nuestro enfoque mejora significativamente la eficiencia de datos, acelera la convergencia en el entrenamiento de MLL y logra una ganancia de rendimiento promedio del 10.5% en múltiples puntos de referencia de modelos de lenguaje en comparación con los métodos más avanzados.
English
Efficient data selection is crucial to accelerate the pretraining of large
language models (LLMs). While various methods have been proposed to enhance
data efficiency, limited research has addressed the inherent conflicts between
these approaches to achieve optimal data selection for LLM pretraining. To
tackle this problem, we propose a novel multi-agent collaborative data
selection mechanism. In this framework, each data selection method serves as an
independent agent, and an agent console is designed to dynamically integrate
the information from all agents throughout the LLM training process. We conduct
extensive empirical studies to evaluate our multi-agent framework. The
experimental results demonstrate that our approach significantly improves data
efficiency, accelerates convergence in LLM training, and achieves an average
performance gain of 10.5% across multiple language model benchmarks compared to
the state-of-the-art methods.Summary
AI-Generated Summary