TREX: Автоматизация тонкой настройки больших языковых моделей с помощью агентного древовидного поиска

Аннотация

Хотя большие языковые модели (LLM) позволили ИИ-агентам выполнять изолированные научные задачи, автоматизация сложных реальных рабочих процессов, таких как обучение LLM, остается серьезной проблемой. В данной статье мы представляем TREX — мульти-агентную систему, которая автоматизирует полный жизненный цикл обучения LLM. Оркестрируя взаимодействие между двумя основными модулями — Исследователем и Исполнителем — система бесшовно выполняет анализ требований, поиск литературы и данных в открытых источниках, формирование стратегий обучения, подготовку рецептов данных, а также обучение и оценку моделей. Многораундовый экспериментальный процесс моделируется в виде дерева поиска, что позволяет системе эффективно планировать пути исследования, повторно использовать исторические результаты и выводить обобщенные инсайты из итеративных испытаний. Для оценки возможности автоматизированного обучения LLM мы создали FT-Bench — бенчмарк, включающий 10 задач, основанных на реальных сценариях, от оптимизации базовых возможностей модели до улучшения производительности на узкоспециализированных задачах. Результаты экспериментов демонстрируют, что агент TREX последовательно оптимизирует производительность модели на целевых задачах.

English

While Large Language Models (LLMs) have empowered AI research agents to perform isolated scientific tasks, automating complex, real-world workflows, such as LLM training, remains a significant challenge. In this paper, we introduce TREX, a multi-agent system that automates the entire LLM training life-cycle. By orchestrating collaboration between two core modules-the Researcher and the Executor-the system seamlessly performs requirement analysis, open-domain literature and data research, formulation of training strategies, preparation of data recipes, and model training and evaluation. The multi-round experimental process is modeled as a search tree, enabling the system to efficiently plan exploration paths, reuse historical results, and distill high-level insights from iterative trials. To evaluate the capability of automated LLM training, we construct FT-Bench, a benchmark comprising 10 tasks derived from real-world scenarios, ranging from optimizing fundamental model capabilities to enhancing performance on domain-specific tasks. Experimental results demonstrate that the TREX agent consistently optimizes model performance on target tasks.

TREX: Автоматизация тонкой настройки больших языковых моделей с помощью агентного древовидного поиска

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Аннотация

Support