TREX : Automatisation du réglage fin des LLM via une exploration arborescente pilotée par agent

Résumé

Si les grands modèles de langage (LLM) ont permis aux agents de recherche en IA d'accomplir des tâches scientifiques isolées, l'automatisation de workflows complexes et réalistes, tels que l'entraînement de LLM, reste un défi majeur. Dans cet article, nous présentons TREX, un système multi-agents qui automatise l'ensemble du cycle de vie de l'entraînement d'un LLM. En orchestrant la collaboration entre deux modules centraux – le Chercheur et l'Exécuteur – le système réalise de manière transparente l'analyse des besoins, la recherche documentaire et de données en domaine ouvert, la formulation de stratégies d'entraînement, la préparation de jeux de données, ainsi que l'entraînement et l'évaluation du modèle. Le processus expérimental itératif est modélisé sous forme d'arbre de recherche, permettant au système de planifier efficacement les chemins d'exploration, de réutiliser les résultats historiques et de distiller des connaissances de haut niveau à partir d'essais répétés. Pour évaluer la capacité d'automatisation de l'entraînement des LLM, nous construisons FT-Bench, un benchmark comprenant 10 tâches issues de scénarios réels, allant de l'optimisation des capacités fondamentales des modèles à l'amélioration des performances sur des tâches spécifiques à un domaine. Les résultats expérimentaux démontrent que l'agent TREX optimise systématiquement les performances du modèle sur les tâches cibles.

English

While Large Language Models (LLMs) have empowered AI research agents to perform isolated scientific tasks, automating complex, real-world workflows, such as LLM training, remains a significant challenge. In this paper, we introduce TREX, a multi-agent system that automates the entire LLM training life-cycle. By orchestrating collaboration between two core modules-the Researcher and the Executor-the system seamlessly performs requirement analysis, open-domain literature and data research, formulation of training strategies, preparation of data recipes, and model training and evaluation. The multi-round experimental process is modeled as a search tree, enabling the system to efficiently plan exploration paths, reuse historical results, and distill high-level insights from iterative trials. To evaluate the capability of automated LLM training, we construct FT-Bench, a benchmark comprising 10 tasks derived from real-world scenarios, ranging from optimizing fundamental model capabilities to enhancing performance on domain-specific tasks. Experimental results demonstrate that the TREX agent consistently optimizes model performance on target tasks.

TREX : Automatisation du réglage fin des LLM via une exploration arborescente pilotée par agent

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Résumé

Support