De l'apprenant au formateur : environnement d'entraînement conçu par LLM pour l'apprentissage par renforcement avec raisonnement multi-agent

Résumé

Les pipelines d'apprentissage par renforcement pour l'entraînement des grands modèles de langage (LLM) reposent souvent sur des environnements redessinés manuellement entre les étapes, ce qui oblige les praticiens à inférer de manière heuristique quelle configuration améliorera le mieux la politique actuelle. Pour automatiser ce processus, nous proposons le cadre LLM-as-Environment-Engineer, dans lequel le modèle de politique actuel analyse les trajectoires d'échec ainsi que les informations contextuelles et propose des modifications à la configuration de l'environnement d'entraînement de l'étape suivante. Nous introduisons également MAPF-FrozenLake, un banc d'essai contrôlable dont le générateur expose des configurations d'environnement multidimensionnelles, ce qui le rend adapté à l'étude et à l'évaluation comparative de la refonte de l'environnement. Sur ce banc d'essai, nous conditionnons l'ingénieur d'environnement sur des résumés structurés du comportement de la politique, des cas d'échec et des statistiques de l'environnement, à partir desquels il produit la configuration pour l'étape d'entraînement suivante. Avec Qwen3-4B comme modèle de base, notre cadre obtient la performance agrégée la plus élevée sur nos bancs d'essai, surpassant les LLM propriétaires plus grands (par exemple, GPT, Gemini) et les lignes de base d'entraînement en environnement fixe. Nous analysons en outre quelles formes de contexte sont les plus efficaces, constatant que les mises à jour réussies de l'environnement reposent sur des preuves d'échec et préservent les configurations qui fonctionnent déjà. Fait intéressant, le point de contrôle RL actuel sert de meilleur ingénieur d'environnement que le modèle de base original, ce qui suggère que l'apprentissage de la politique améliore la capacité du modèle à diagnostiquer ses faiblesses restantes.

English

Reinforcement learning pipelines for Large Language Model (LLM) training often rely on manually redesigned environments between stages, requiring practitioners to heuristically infer which configuration will best improve the current policy. To automate this process, we propose the LLM-as-Environment-Engineer framework in which the current policy model analyzes failure trajectories together with contextual information and proposes modifications to the next-stage training environment configuration. We also introduce MAPF-FrozenLake, a controllable testbed whose generator exposes multi-dimensional environment configurations, making it suitable for studying and benchmarking environment redesign. On this testbed, we condition the environment engineer on structured summaries of policy behavior, failure cases, and environment statistics, from which it produces the configuration for the next training stage. With Qwen3-4B as the backbone, our framework achieves the strongest aggregate performance on our benchmarks, outperforming larger proprietary LLMs (e.g., GPT, Gemini) and fixed-environment training baselines. We further analyze which forms of context are most effective, finding that successful environment updates rely on failure evidence and preserve configurations that already work. Interestingly, the current RL checkpoint serves as a better environment engineer than the original base model, suggesting that policy learning improves the model's ability to diagnose its remaining weaknesses.