ChatPaper.aiChatPaper

AutoLLMResearch: Обучение исследовательских агентов для автоматизации конфигурации экспериментов с LLM — Обучение на дешёвых, оптимизация дорогих

AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration -- Learning from Cheap, Optimizing Expensive

May 12, 2026
Авторы: Taicheng Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
cs.AI

Аннотация

Эффективная конфигурация масштабируемых экспериментов с большими языковыми моделями (БЯМ), охватывающая проектирование архитектур, настройку гиперпараметров и другие аспекты, имеет решающее значение для продвижения исследований в области БЯМ, поскольку неудачный выбор конфигурации может привести к неоправданным затратам вычислительных ресурсов и помешать моделям реализовать свой полный потенциал. Существующие автоматизированные методы предназначены для низкозатратных сценариев, где допустимы многократные пробы и ошибки, однако масштабируемые эксперименты с БЯМ слишком дороги для такой обширной итерации. Насколько нам известно, ни одна работа не решала задачу автоматизации высокозатратных конфигураций экспериментов с БЯМ, что оставляет эту проблему трудоемкой и зависимой от интуиции экспертов. Руководствуясь этим пробелом, мы предлагаем AutoLLMResearch — агентный фреймворк, имитирующий подход исследователей-людей к изучению обобщаемых принципов на основе низкозатратных экспериментов и экстраполяции для эффективного выявления перспективных конфигураций в дорогостоящих условиях БЯМ. Ключевая задача заключается в том, как обеспечить обучение агента через взаимодействие с многоуровневой экспериментальной средой, отражающей структуру ландшафта конфигураций БЯМ. Для этого мы предлагаем систематический фреймворк с двумя ключевыми компонентами: 1) LLMConfig-Gym — многоуровневая среда, охватывающая четыре критических задачи экспериментов с БЯМ, поддерживаемая результатами более миллиона часов GPU проверяемых экспериментов; 2) Структурированный конвейер обучения, который формулирует исследование конфигураций как марковский процесс принятия решений с долгосрочным горизонтом и соответственно стимулирует рассуждения о кросс-уровневой экстраполяции. Обширная оценка на отложенных экспериментах в сравнении с разнообразными сильными базовыми линиями демонстрирует эффективность, обобщаемость и интерпретируемость нашего фреймворка, подтверждая его потенциал как практичного и универсального решения для автоматизации масштабируемых реальных экспериментов с БЯМ.
English
Effectively configuring scalable large language model (LLM) experiments, spanning architecture design, hyperparameter tuning, and beyond, is crucial for advancing LLM research, as poor configuration choices can waste substantial computational resources and prevent models from realizing their full potential. Prior automated methods are designed for low-cost settings where repeated trial and error is feasible, but scalable LLM experiments are too expensive for such extensive iteration. To our knowledge, no work has addressed the automation of high-cost LLM experiment configurations, leaving this problem labor-intensive and dependent on expert intuition. Motivated by this gap, we propose AutoLLMResearch, an agentic framework that mimics how human researchers learn generalizable principles from low-fidelity experiments and extrapolate to efficiently identify promising configurations in expensive LLM settings. The core challenge is how to enable an agent to learn, through interaction with a multi-fidelity experimental environment that captures the structure of the LLM configuration landscape. To achieve this, we propose a systematic framework with two key components: 1) LLMConfig-Gym, a multi-fidelity environment encompassing four critical LLM experiment tasks, supported by over one million GPU hours of verifiable experiment outcomes; 2) A structured training pipeline that formulates configuration research as a long-horizon Markov Decision Process and accordingly incentivizes cross-fidelity extrapolation reasoning. Extensive evaluation against diverse strong baselines on held-out experiments demonstrates the effectiveness, generalization, and interpretability of our framework, supporting its potential as a practical and general solution for scalable real-world LLM experiment automation.
PDF21May 14, 2026