AutoLLMResearch : Former des agents de recherche pour automatiser la configuration d'expériences LLM – Apprendre à faible coût, optimiser à coût élevé
AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration -- Learning from Cheap, Optimizing Expensive
May 12, 2026
Auteurs: Taicheng Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI
Résumé
Configurer efficacement des expériences à grande échelle sur les modèles de langage (LLM), englobant la conception architecturale, le réglage des hyperparamètres et au-delà, est crucial pour faire progresser la recherche sur les LLM, car de mauvais choix de configuration peuvent gaspiller d’importantes ressources computationnelles et empêcher les modèles d’atteindre leur plein potentiel. Les méthodes automatisées antérieures sont conçues pour des contextes à faible coût où les essais et erreurs répétés sont réalisables, mais les expériences de LLM à grande échelle sont trop coûteuses pour une itération aussi extensive. À notre connaissance, aucun travail n’a abordé l’automatisation des configurations d’expériences de LLM à coût élevé, laissant ce problème intensif en main-d’œuvre et dépendant de l’intuition experte. Motivés par cette lacune, nous proposons AutoLLMResearch, un cadre agentique qui imite la manière dont les chercheurs humains apprennent des principes généralisables à partir d’expériences à faible fidélité et les extrapolent pour identifier efficacement des configurations prometteuses dans des contextes coûteux de LLM. Le défi central est de permettre à un agent d’apprendre, par interaction avec un environnement expérimental multi-fidélité qui capture la structure du paysage de configuration des LLM. Pour y parvenir, nous proposons un cadre systématique avec deux composantes clés : 1) LLMConfig-Gym, un environnement multi-fidélité englobant quatre tâches critiques d’expérimentation sur les LLM, soutenu par plus d’un million d’heures GPU de résultats expérimentaux vérifiables ; 2) Un pipeline d’entraînement structuré qui formule la recherche de configuration comme un processus décisionnel de Markov à long horizon et encourage en conséquence le raisonnement d’extrapolation inter-fidélité. Une évaluation extensive contre diverses références solides sur des expériences tenues à l’écart démontre l’efficacité, la généralisation et l’interprétabilité de notre cadre, soutenant son potentiel en tant que solution pratique et générale pour l’automatisation à grande échelle d’expériences réelles sur les LLM.
English
Effectively configuring scalable large language model (LLM) experiments, spanning architecture design, hyperparameter tuning, and beyond, is crucial for advancing LLM research, as poor configuration choices can waste substantial computational resources and prevent models from realizing their full potential. Prior automated methods are designed for low-cost settings where repeated trial and error is feasible, but scalable LLM experiments are too expensive for such extensive iteration. To our knowledge, no work has addressed the automation of high-cost LLM experiment configurations, leaving this problem labor-intensive and dependent on expert intuition. Motivated by this gap, we propose AutoLLMResearch, an agentic framework that mimics how human researchers learn generalizable principles from low-fidelity experiments and extrapolate to efficiently identify promising configurations in expensive LLM settings. The core challenge is how to enable an agent to learn, through interaction with a multi-fidelity experimental environment that captures the structure of the LLM configuration landscape. To achieve this, we propose a systematic framework with two key components: 1) LLMConfig-Gym, a multi-fidelity environment encompassing four critical LLM experiment tasks, supported by over one million GPU hours of verifiable experiment outcomes; 2) A structured training pipeline that formulates configuration research as a long-horizon Markov Decision Process and accordingly incentivizes cross-fidelity extrapolation reasoning. Extensive evaluation against diverse strong baselines on held-out experiments demonstrates the effectiveness, generalization, and interpretability of our framework, supporting its potential as a practical and general solution for scalable real-world LLM experiment automation.