AutoLLMResearch: Training von Forschungsagenten zur Automatisierung der LLM-Experimentkonfiguration – Lernen aus Günstigem, Optimieren aus Teurem
AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration -- Learning from Cheap, Optimizing Expensive
May 12, 2026
Autoren: Taicheng Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI
Zusammenfassung
Eine effektive Konfiguration skalierbarer Experimente mit großen Sprachmodellen (Large Language Models, LLMs), die Architekturdesign, Hyperparameter-Tuning und weitere Aspekte umfasst, ist entscheidend für den Fortschritt der LLM-Forschung, da schlechte Konfigurationsentscheidungen erhebliche Rechenressourcen verschwenden und Modelle daran hindern können, ihr volles Potenzial auszuschöpfen. Bisherige automatisierte Methoden sind für kostengünstige Umgebungen konzipiert, in denen wiederholtes Versuch-und-Irrtum-Verfahren machbar ist, aber skalierbare LLM-Experimente sind für eine derart umfangreiche Iteration zu teuer. Unseres Wissens hat sich keine Arbeit mit der Automatisierung von Hochkosten-LLM-Experimentkonfigurationen befasst, sodass dieses Problem arbeitsintensiv und von Expertenintuition abhängig bleibt. Motiviert durch diese Lücke schlagen wir AutoLLMResearch vor, ein agentenbasiertes Framework, das nachahmt, wie menschliche Forscher aus Experimenten mit niedriger Treue generalisierbare Prinzipien lernen und extrapolieren, um effizient vielversprechende Konfigurationen in teuren LLM-Umgebungen zu identifizieren. Die zentrale Herausforderung besteht darin, wie ein Agent durch Interaktion mit einer Multi-Fidelity-Experimentierumgebung, die die Struktur der LLM-Konfigurationslandschaft erfasst, lernen kann. Um dies zu erreichen, schlagen wir ein systematisches Framework mit zwei Schlüsselkomponenten vor: 1) LLMConfig-Gym, eine Multi-Fidelity-Umgebung, die vier kritische LLM-Experimentaufgaben umfasst, gestützt durch über eine Million GPU-Stunden verifizierbarer Experimentergebnisse; 2) Eine strukturierte Trainingspipeline, die Konfigurationsforschung als einen Markov-Entscheidungsprozess mit langem Horizont formuliert und entsprechend Reasoning zur Kreuztreue-Extrapolation fördert. Umfassende Evaluierungen gegen verschiedene starke Baselines auf zurückgehaltenen Experimenten belegen die Effektivität, Generalisierbarkeit und Interpretierbarkeit unseres Frameworks und unterstützen sein Potenzial als praktische und allgemeine Lösung für die skalierbare Automatisierung realer LLM-Experimente.
English
Effectively configuring scalable large language model (LLM) experiments, spanning architecture design, hyperparameter tuning, and beyond, is crucial for advancing LLM research, as poor configuration choices can waste substantial computational resources and prevent models from realizing their full potential. Prior automated methods are designed for low-cost settings where repeated trial and error is feasible, but scalable LLM experiments are too expensive for such extensive iteration. To our knowledge, no work has addressed the automation of high-cost LLM experiment configurations, leaving this problem labor-intensive and dependent on expert intuition. Motivated by this gap, we propose AutoLLMResearch, an agentic framework that mimics how human researchers learn generalizable principles from low-fidelity experiments and extrapolate to efficiently identify promising configurations in expensive LLM settings. The core challenge is how to enable an agent to learn, through interaction with a multi-fidelity experimental environment that captures the structure of the LLM configuration landscape. To achieve this, we propose a systematic framework with two key components: 1) LLMConfig-Gym, a multi-fidelity environment encompassing four critical LLM experiment tasks, supported by over one million GPU hours of verifiable experiment outcomes; 2) A structured training pipeline that formulates configuration research as a long-horizon Markov Decision Process and accordingly incentivizes cross-fidelity extrapolation reasoning. Extensive evaluation against diverse strong baselines on held-out experiments demonstrates the effectiveness, generalization, and interpretability of our framework, supporting its potential as a practical and general solution for scalable real-world LLM experiment automation.