ChatPaper.aiChatPaper

МногоАгентный Совместный Выбор Данных для Эффективного Предварительного Обучения LLM

Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

October 10, 2024
Авторы: Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He
cs.AI

Аннотация

Эффективный выбор данных критичен для ускорения предварительного обучения больших языковых моделей (БЯМ). Хотя были предложены различные методы для улучшения эффективности данных, ограниченное исследование затрагивало врожденные конфликты между этими подходами для достижения оптимального выбора данных для предварительного обучения БЯМ. Для решения этой проблемы мы предлагаем новый механизм коллаборативного выбора данных с множеством агентов. В этой структуре каждый метод выбора данных выступает в качестве независимого агента, и консоль агента разработана для динамической интеграции информации от всех агентов на протяжении процесса обучения БЯМ. Мы проводим обширные эмпирические исследования для оценки нашей многоагентной структуры. Экспериментальные результаты показывают, что наш подход значительно улучшает эффективность данных, ускоряет сходимость в обучении БЯМ и достигает среднего прироста производительности на 10,5% по сравнению с передовыми методами на нескольких языковых модельных бенчмарках.
English
Efficient data selection is crucial to accelerate the pretraining of large language models (LLMs). While various methods have been proposed to enhance data efficiency, limited research has addressed the inherent conflicts between these approaches to achieve optimal data selection for LLM pretraining. To tackle this problem, we propose a novel multi-agent collaborative data selection mechanism. In this framework, each data selection method serves as an independent agent, and an agent console is designed to dynamically integrate the information from all agents throughout the LLM training process. We conduct extensive empirical studies to evaluate our multi-agent framework. The experimental results demonstrate that our approach significantly improves data efficiency, accelerates convergence in LLM training, and achieves an average performance gain of 10.5% across multiple language model benchmarks compared to the state-of-the-art methods.

Summary

AI-Generated Summary

PDF202November 16, 2024