AutoLLMResearch: LLM 실험 구성을 자동화하기 위한 연구 에이전트 훈련 — 저비용 학습으로부터, 고비용 최적화
AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration -- Learning from Cheap, Optimizing Expensive
May 12, 2026
저자: Taicheng Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI
초록
스케일러블 대규모 언어 모델(LLM) 실험을 효과적으로 구성하는 것은 아키텍처 설계, 하이퍼파라미터 튜닝 등을 포괄하며 LLM 연구 발전에 필수적이다. 부적절한 구성 선택은 상당한 계산 자원을 낭비하고 모델의 잠재력을 최대한 발휘하지 못하게 할 수 있기 때문이다. 기존의 자동화 방법은 반복적인 시행착오가 가능한 저비용 환경을 위해 설계되었으나, 스케일러블 LLM 실험은 광범위한 반복을 수행하기에는 비용이 너무 높다. 현재까지 고비용 LLM 실험 구성의 자동화를 다룬 연구는 없으며, 이 문제는 여전히 인력 의존도가 높고 전문가의 직관에 의존하고 있다. 이러한 격차에 착안하여, 우리는 인간 연구자가 저정밀도 실험에서 일반화 가능한 원칙을 학습하고 이를 외삽하여 고비용 LLM 환경에서 유망한 구성을 효율적으로 식별하는 방식을 모방한 에이전트 기반 프레임워크인 AutoLLMResearch를 제안한다. 핵심 과제는 LLM 구성 공간의 구조를 포착하는 다중 정밀도 실험 환경과의 상호작용을 통해 에이전트가 학습할 수 있도록 하는 것이다. 이를 위해, 우리는 두 가지 핵심 구성 요소로 이루어진 체계적인 프레임워크를 제안한다: 1) LLMConfig-Gym - 백만 GPU 시간 이상의 검증 가능한 실험 결과로 뒷받침되는 네 가지 핵심 LLM 실험 과제를 포괄하는 다중 정밀도 환경, 2) 구성 연구를 장기적 마르코프 의사 결정 과정으로 정식화하고 이에 따라 교차 정밀도 외삽 추론을 장려하는 구조화된 훈련 파이프라인. 다양한 강력한 기준선과 홀드아웃 실험에 대한 광범위한 평가는 우리 프레임워크의 효율성, 일반화 가능성, 및 해석 가능성을 입증하며, 확장 가능한 실제 LLM 실험 자동화를 위한 실용적이고 일반적인 솔루션으로서의 잠재력을 뒷받침한다.
English
Effectively configuring scalable large language model (LLM) experiments, spanning architecture design, hyperparameter tuning, and beyond, is crucial for advancing LLM research, as poor configuration choices can waste substantial computational resources and prevent models from realizing their full potential. Prior automated methods are designed for low-cost settings where repeated trial and error is feasible, but scalable LLM experiments are too expensive for such extensive iteration. To our knowledge, no work has addressed the automation of high-cost LLM experiment configurations, leaving this problem labor-intensive and dependent on expert intuition. Motivated by this gap, we propose AutoLLMResearch, an agentic framework that mimics how human researchers learn generalizable principles from low-fidelity experiments and extrapolate to efficiently identify promising configurations in expensive LLM settings. The core challenge is how to enable an agent to learn, through interaction with a multi-fidelity experimental environment that captures the structure of the LLM configuration landscape. To achieve this, we propose a systematic framework with two key components: 1) LLMConfig-Gym, a multi-fidelity environment encompassing four critical LLM experiment tasks, supported by over one million GPU hours of verifiable experiment outcomes; 2) A structured training pipeline that formulates configuration research as a long-horizon Markov Decision Process and accordingly incentivizes cross-fidelity extrapolation reasoning. Extensive evaluation against diverse strong baselines on held-out experiments demonstrates the effectiveness, generalization, and interpretability of our framework, supporting its potential as a practical and general solution for scalable real-world LLM experiment automation.