ChatPaper.aiChatPaper

AutoLLMResearch: Entrenamiento de Agentes de Investigación para la Automatización de la Configuración de Experimentos con LLM — Aprendiendo de lo Barato, Optimizando lo Costoso

AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration -- Learning from Cheap, Optimizing Expensive

May 12, 2026
Autores: Taicheng Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI

Resumen

La configuración efectiva de experimentos escalables con modelos de lenguaje de gran tamaño (LLM), que abarca el diseño de arquitectura, el ajuste de hiperparámetros y más, es crucial para avanzar en la investigación de LLM, ya que las malas elecciones de configuración pueden desperdiciar recursos computacionales sustanciales e impedir que los modelos alcancen su máximo potencial. Los métodos automatizados previos están diseñados para entornos de bajo costo donde es factible repetir pruebas y errores, pero los experimentos escalables con LLM son demasiado costosos para dicha iteración extensiva. Hasta donde sabemos, ningún trabajo ha abordado la automatización de configuraciones de experimentos de LLM de alto costo, dejando este problema como intensivo en mano de obra y dependiente de la intuición experta. Motivados por esta brecha, proponemos AutoLLMResearch, un marco agéntico que imita cómo los investigadores humanos aprenden principios generalizables a partir de experimentos de baja fidelidad y extrapolan para identificar eficientemente configuraciones prometedoras en entornos costosos de LLM. El desafío central es cómo capacitar a un agente para que aprenda, mediante la interacción con un entorno experimental multifidelidad que captura la estructura del panorama de configuración de LLM. Para lograrlo, proponemos un marco sistemático con dos componentes clave: 1) LLMConfig-Gym, un entorno multifidelidad que abarca cuatro tareas críticas de experimentación con LLM, respaldado por más de un millón de horas de GPU en resultados experimentales verificables; 2) Un pipeline de entrenamiento estructurado que formula la investigación de configuraciones como un Proceso de Decisión de Markov de largo horizonte e incentiva en consecuencia el razonamiento de extrapolación entre fidelidades. Una evaluación exhaustiva frente a diversos puntos de referencia sólidos en experimentos reservados demuestra la efectividad, generalización e interpretabilidad de nuestro marco, respaldando su potencial como una solución práctica y general para la automatización escalable de experimentos con LLM en el mundo real.
English
Effectively configuring scalable large language model (LLM) experiments, spanning architecture design, hyperparameter tuning, and beyond, is crucial for advancing LLM research, as poor configuration choices can waste substantial computational resources and prevent models from realizing their full potential. Prior automated methods are designed for low-cost settings where repeated trial and error is feasible, but scalable LLM experiments are too expensive for such extensive iteration. To our knowledge, no work has addressed the automation of high-cost LLM experiment configurations, leaving this problem labor-intensive and dependent on expert intuition. Motivated by this gap, we propose AutoLLMResearch, an agentic framework that mimics how human researchers learn generalizable principles from low-fidelity experiments and extrapolate to efficiently identify promising configurations in expensive LLM settings. The core challenge is how to enable an agent to learn, through interaction with a multi-fidelity experimental environment that captures the structure of the LLM configuration landscape. To achieve this, we propose a systematic framework with two key components: 1) LLMConfig-Gym, a multi-fidelity environment encompassing four critical LLM experiment tasks, supported by over one million GPU hours of verifiable experiment outcomes; 2) A structured training pipeline that formulates configuration research as a long-horizon Markov Decision Process and accordingly incentivizes cross-fidelity extrapolation reasoning. Extensive evaluation against diverse strong baselines on held-out experiments demonstrates the effectiveness, generalization, and interpretability of our framework, supporting its potential as a practical and general solution for scalable real-world LLM experiment automation.
PDF21May 14, 2026