Selección de Datos Colaborativa entre Múltiples Agentes para el Preentrenamiento Eficiente de LLM

Resumen

La selección eficiente de datos es crucial para acelerar el preentrenamiento de modelos de lenguaje grandes (MLL). Aunque se han propuesto varios métodos para mejorar la eficiencia de datos, hay una investigación limitada que ha abordado los conflictos inherentes entre estos enfoques para lograr una selección óptima de datos para el preentrenamiento de MLL. Para abordar este problema, proponemos un mecanismo novedoso de selección de datos colaborativo multiagente. En este marco, cada método de selección de datos actúa como un agente independiente, y se diseña una consola de agentes para integrar dinámicamente la información de todos los agentes a lo largo del proceso de entrenamiento de MLL. Realizamos extensos estudios empíricos para evaluar nuestro marco multiagente. Los resultados experimentales demuestran que nuestro enfoque mejora significativamente la eficiencia de datos, acelera la convergencia en el entrenamiento de MLL y logra una ganancia de rendimiento promedio del 10.5% en múltiples puntos de referencia de modelos de lenguaje en comparación con los métodos más avanzados.

English

Efficient data selection is crucial to accelerate the pretraining of large language models (LLMs). While various methods have been proposed to enhance data efficiency, limited research has addressed the inherent conflicts between these approaches to achieve optimal data selection for LLM pretraining. To tackle this problem, we propose a novel multi-agent collaborative data selection mechanism. In this framework, each data selection method serves as an independent agent, and an agent console is designed to dynamically integrate the information from all agents throughout the LLM training process. We conduct extensive empirical studies to evaluate our multi-agent framework. The experimental results demonstrate that our approach significantly improves data efficiency, accelerates convergence in LLM training, and achieves an average performance gain of 10.5% across multiple language model benchmarks compared to the state-of-the-art methods.

Selección de Datos Colaborativa entre Múltiples Agentes para el Preentrenamiento Eficiente de LLM

Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Resumen

Support