PIPer : Configuration de l'environnement sur appareil via l'apprentissage par renforcement en ligne

papers.abstract

La configuration de l'environnement – le processus de paramétrage du système pour qu'il fonctionne avec un projet logiciel spécifique – représente un défi persistant en génie logiciel (SE). Les méthodes automatisées de configuration de l'environnement pourraient aider les développeurs en fournissant des environnements entièrement configurés pour des dépôts arbitraires sans effort manuel. Cela aide également les chercheurs en SE à mettre à l'échelle des benchmarks basés sur l'exécution. Cependant, des études récentes révèlent que même les modèles de langage de pointe (LLMs) obtiennent un succès limité dans l'automatisation de cette tâche. Pour surmonter cette limitation, nous ajustons un modèle spécialisé pour la configuration de l'environnement. Nous combinons un fine-tuning supervisé pour générer des scripts Bash corrects et un apprentissage par renforcement avec récompenses vérifiables (RLVR) pour l'adapter à la tâche de configuration de l'environnement. Sur EnvBench-Python, notre méthode permet à Qwen3-8B (un modèle exécutable sur du matériel grand public) de performer au même niveau que des modèles plus volumineux – Qwen3-32B et GPT-4o. Le code d'entraînement et les points de contrôle du modèle sont disponibles en ligne : https://github.com/JetBrains-Research/PIPer.

English

Environment setup-the process of configuring the system to work with a specific software project-represents a persistent challenge in Software Engineering (SE). Automated environment setup methods could assist developers by providing fully configured environments for arbitrary repositories without manual effort. This also helps SE researchers to scale execution-based benchmarks. However, recent studies reveal that even state-of-the-art Large Language Models (LLMs) achieve limited success in automating this task. To address this limitation, we tune a specialized model for environment setup. We combine supervised fine-tuning for generating correct Bash scripts and Reinforcement Learning with Verifiable Rewards (RLVR) to adapt it to the task of environment setup. On EnvBench-Python, our method enables Qwen3-8B (a model runnable on consumer hardware) to perform on par with larger models-Qwen3-32B and GPT-4o. The training code and model checkpoints are available online: https://github.com/JetBrains-Research/PIPer.

PIPer : Configuration de l'environnement sur appareil via l'apprentissage par renforcement en ligne

PIPer: On-Device Environment Setup via Online Reinforcement Learning

papers.abstract

Support