PIPer : Configuration de l'environnement sur appareil via l'apprentissage par renforcement en ligne
PIPer: On-Device Environment Setup via Online Reinforcement Learning
September 29, 2025
papers.authors: Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, Egor Bogomolov, Yaroslav Zharov
cs.AI
papers.abstract
La configuration de l'environnement – le processus de paramétrage du système pour qu'il fonctionne avec un projet logiciel spécifique – représente un défi persistant en génie logiciel (SE). Les méthodes automatisées de configuration de l'environnement pourraient aider les développeurs en fournissant des environnements entièrement configurés pour des dépôts arbitraires sans effort manuel. Cela aide également les chercheurs en SE à mettre à l'échelle des benchmarks basés sur l'exécution. Cependant, des études récentes révèlent que même les modèles de langage de pointe (LLMs) obtiennent un succès limité dans l'automatisation de cette tâche. Pour surmonter cette limitation, nous ajustons un modèle spécialisé pour la configuration de l'environnement. Nous combinons un fine-tuning supervisé pour générer des scripts Bash corrects et un apprentissage par renforcement avec récompenses vérifiables (RLVR) pour l'adapter à la tâche de configuration de l'environnement. Sur EnvBench-Python, notre méthode permet à Qwen3-8B (un modèle exécutable sur du matériel grand public) de performer au même niveau que des modèles plus volumineux – Qwen3-32B et GPT-4o. Le code d'entraînement et les points de contrôle du modèle sont disponibles en ligne : https://github.com/JetBrains-Research/PIPer.
English
Environment setup-the process of configuring the system to work with a
specific software project-represents a persistent challenge in Software
Engineering (SE). Automated environment setup methods could assist developers
by providing fully configured environments for arbitrary repositories without
manual effort. This also helps SE researchers to scale execution-based
benchmarks. However, recent studies reveal that even state-of-the-art Large
Language Models (LLMs) achieve limited success in automating this task. To
address this limitation, we tune a specialized model for environment setup. We
combine supervised fine-tuning for generating correct Bash scripts and
Reinforcement Learning with Verifiable Rewards (RLVR) to adapt it to the task
of environment setup. On EnvBench-Python, our method enables Qwen3-8B (a model
runnable on consumer hardware) to perform on par with larger models-Qwen3-32B
and GPT-4o. The training code and model checkpoints are available online:
https://github.com/JetBrains-Research/PIPer.