TREX: Automação do Fine-tuning de LLMs por meio de Exploração Baseada em Árvore Orientada por Agentes

Resumo

Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham capacitado agentes de pesquisa em IA a realizar tarefas científicas isoladas, a automatização de fluxos de trabalho complexos do mundo real, como o treinamento de LLMs, continua sendo um desafio significativo. Neste artigo, apresentamos o TREX, um sistema multiagente que automatiza todo o ciclo de vida do treinamento de LLMs. Ao orquestrar a colaboração entre dois módulos centrais - o Pesquisador e o Executor - o sistema realiza de forma integrada a análise de requisitos, a pesquisa em literatura e dados de domínio aberto, a formulação de estratégias de treinamento, o preparo de "receitas" de dados, e o treinamento e avaliação do modelo. O processo experimental com múltiplas rodadas é modelado como uma árvore de busca, permitindo que o sistema planeje eficientemente caminhos de exploração, reutilize resultados históricos e destile insights de alto nível a partir de testes iterativos. Para avaliar a capacidade de treinamento automatizado de LLMs, construímos o FT-Bench, um benchmark composto por 10 tarefas derivadas de cenários do mundo real, variando desde a otimização de capacidades fundamentais do modelo até a melhoria de desempenho em tarefas específicas de domínio. Resultados experimentais demonstram que o agente TREX otimiza consistentemente o desempenho do modelo nas tarefas-alvo.

English

While Large Language Models (LLMs) have empowered AI research agents to perform isolated scientific tasks, automating complex, real-world workflows, such as LLM training, remains a significant challenge. In this paper, we introduce TREX, a multi-agent system that automates the entire LLM training life-cycle. By orchestrating collaboration between two core modules-the Researcher and the Executor-the system seamlessly performs requirement analysis, open-domain literature and data research, formulation of training strategies, preparation of data recipes, and model training and evaluation. The multi-round experimental process is modeled as a search tree, enabling the system to efficiently plan exploration paths, reuse historical results, and distill high-level insights from iterative trials. To evaluate the capability of automated LLM training, we construct FT-Bench, a benchmark comprising 10 tasks derived from real-world scenarios, ranging from optimizing fundamental model capabilities to enhancing performance on domain-specific tasks. Experimental results demonstrate that the TREX agent consistently optimizes model performance on target tasks.

TREX: Automação do Fine-tuning de LLMs por meio de Exploração Baseada em Árvore Orientada por Agentes

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Resumo

Support