От ученика к учителю: среда обучения с подкреплением, разработанная LLM, с многоагентным рассуждением

Аннотация

Конвейеры обучения с подкреплением для больших языковых моделей (БЯМ) часто полагаются на ручную переработку среды между этапами, что требует от практиков эвристического вывода о том, какая конфигурация наилучшим образом улучшит текущую политику. Для автоматизации этого процесса мы предлагаем фреймворк «БЯМ как инженер среды», в котором текущая модель политики анализирует неудачные траектории вместе с контекстной информацией и предлагает изменения конфигурации среды обучения для следующего этапа. Мы также представляем MAPF-FrozenLake — контролируемый тестовый полигон, генератор которого предоставляет многомерные конфигурации среды, что делает его пригодным для изучения и тестирования редизайна среды. На этом полигоне мы передаём инженеру среды структурированные сводки поведения политики, случаев неудач и статистики среды, на основе которых он формирует конфигурацию для следующего этапа обучения. Используя Qwen3-4B в качестве основы, наш фреймворк достигает наилучшей совокупной производительности на наших тестовых наборах, превосходя как более крупные проприетарные БЯМ (например, GPT, Gemini), так и базовые подходы с фиксированной средой обучения. Далее мы анализируем, какие формы контекста наиболее эффективны, и обнаруживаем, что успешные обновления среды опираются на доказательства неудач и сохраняют те конфигурации, которые уже работают. Интересно, что текущий контрольный пункт RL служит лучшим инженером среды, чем исходная базовая модель, что указывает на то, что обучение политики улучшает способность модели диагностировать свои оставшиеся слабые места.

English

Reinforcement learning pipelines for Large Language Model (LLM) training often rely on manually redesigned environments between stages, requiring practitioners to heuristically infer which configuration will best improve the current policy. To automate this process, we propose the LLM-as-Environment-Engineer framework in which the current policy model analyzes failure trajectories together with contextual information and proposes modifications to the next-stage training environment configuration. We also introduce MAPF-FrozenLake, a controllable testbed whose generator exposes multi-dimensional environment configurations, making it suitable for studying and benchmarking environment redesign. On this testbed, we condition the environment engineer on structured summaries of policy behavior, failure cases, and environment statistics, from which it produces the configuration for the next training stage. With Qwen3-4B as the backbone, our framework achieves the strongest aggregate performance on our benchmarks, outperforming larger proprietary LLMs (e.g., GPT, Gemini) and fixed-environment training baselines. We further analyze which forms of context are most effective, finding that successful environment updates rely on failure evidence and preserve configurations that already work. Interestingly, the current RL checkpoint serves as a better environment engineer than the original base model, suggesting that policy learning improves the model's ability to diagnose its remaining weaknesses.