TREX: Automatisering van LLM-finetuning via agentgestuurde, boomgebaseerde exploratie

Samenvatting

Hoewel Large Language Models (LLM's) AI-onderzoeksagenten in staat hebben gesteld om geïsoleerde wetenschappelijke taken uit te voeren, blijft het automatiseren van complexe, real-world workflows, zoals LLM-training, een aanzienlijke uitdaging. In dit artikel introduceren we TREX, een multi-agent systeem dat de volledige levenscyclus van LLM-training automatiseert. Door de samenwerking tussen twee kernmodules – de Onderzoeker en de Uitvoerder – te orkestreren, voert het systeem naadloos vereiste-analyse, open-domein literatuur- en data-onderzoek, formulering van trainingsstrategieën, voorbereiding van data-recepten, en modeltraining en -evaluatie uit. Het multi-round experimentele proces wordt gemodelleerd als een zoekboom, waardoor het systeem efficiënt verkenningstrajecten kan plannen, historische resultaten kan hergebruiken en hoogwaardige inzichten kan destilleren uit iteratieve trials. Om de capaciteit van geautomatiseerde LLM-training te evalueren, construeren we FT-Bench, een benchmark bestaande uit 10 taken afgeleid van real-world scenario's, variërend van het optimaliseren van fundamentele modelcapaciteiten tot het verbeteren van prestaties op domeinspecifieke taken. Experimentele resultaten tonen aan dat de TREX-agent consequent de modelprestaties op doeltaken optimaliseert.

English

While Large Language Models (LLMs) have empowered AI research agents to perform isolated scientific tasks, automating complex, real-world workflows, such as LLM training, remains a significant challenge. In this paper, we introduce TREX, a multi-agent system that automates the entire LLM training life-cycle. By orchestrating collaboration between two core modules-the Researcher and the Executor-the system seamlessly performs requirement analysis, open-domain literature and data research, formulation of training strategies, preparation of data recipes, and model training and evaluation. The multi-round experimental process is modeled as a search tree, enabling the system to efficiently plan exploration paths, reuse historical results, and distill high-level insights from iterative trials. To evaluate the capability of automated LLM training, we construct FT-Bench, a benchmark comprising 10 tasks derived from real-world scenarios, ranging from optimizing fundamental model capabilities to enhancing performance on domain-specific tasks. Experimental results demonstrate that the TREX agent consistently optimizes model performance on target tasks.

TREX: Automatisering van LLM-finetuning via agentgestuurde, boomgebaseerde exploratie

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Samenvatting

Support