TREX: Automatización del Ajuste Fino de LLM mediante Exploración Basada en Árboles Dirigida por Agentes

Resumen

Si bien los Modelos de Lenguaje a Gran Escala (LLM) han dotado a los agentes de investigación de IA de la capacidad de realizar tareas científicas aisladas, automatizar flujos de trabajo complejos y del mundo real, como el entrenamiento de LLMs, sigue siendo un desafío significativo. En este artículo, presentamos TREX, un sistema multiagente que automatiza todo el ciclo de vida del entrenamiento de un LLM. Mediante la orquestación de la colaboración entre dos módulos centrales —el Investigador y el Ejecutor—, el sistema realiza de manera fluida el análisis de requisitos, la investigación de literatura y datos en dominio abierto, la formulación de estrategias de entrenamiento, la preparación de recetas de datos, y el entrenamiento y evaluación del modelo. El proceso experimental de múltiples rondas se modela como un árbol de búsqueda, permitiendo al sistema planificar eficientemente rutas de exploración, reutilizar resultados históricos y destilar conocimientos de alto nivel a partir de pruebas iterativas. Para evaluar la capacidad del entrenamiento automatizado de LLMs, construimos FT-Bench, un benchmark que comprende 10 tareas derivadas de escenarios del mundo real, que van desde la optimización de capacidades fundamentales del modelo hasta la mejora del rendimiento en tareas específicas de un dominio. Los resultados experimentales demuestran que el agente TREX optimiza consistentemente el rendimiento del modelo en las tareas objetivo.

English

While Large Language Models (LLMs) have empowered AI research agents to perform isolated scientific tasks, automating complex, real-world workflows, such as LLM training, remains a significant challenge. In this paper, we introduce TREX, a multi-agent system that automates the entire LLM training life-cycle. By orchestrating collaboration between two core modules-the Researcher and the Executor-the system seamlessly performs requirement analysis, open-domain literature and data research, formulation of training strategies, preparation of data recipes, and model training and evaluation. The multi-round experimental process is modeled as a search tree, enabling the system to efficiently plan exploration paths, reuse historical results, and distill high-level insights from iterative trials. To evaluate the capability of automated LLM training, we construct FT-Bench, a benchmark comprising 10 tasks derived from real-world scenarios, ranging from optimizing fundamental model capabilities to enhancing performance on domain-specific tasks. Experimental results demonstrate that the TREX agent consistently optimizes model performance on target tasks.

TREX: Automatización del Ajuste Fino de LLM mediante Exploración Basada en Árboles Dirigida por Agentes

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Resumen

Support