PIPer: On-Device Omgevingconfiguratie via Online Reinforcement Learning
PIPer: On-Device Environment Setup via Online Reinforcement Learning
September 29, 2025
Auteurs: Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, Egor Bogomolov, Yaroslav Zharov
cs.AI
Samenvatting
Omgevingsconfiguratie - het proces van het instellen van het systeem om te werken met een specifiek softwareproject - vormt een aanhoudende uitdaging in Software Engineering (SE). Geautomatiseerde methoden voor omgevingsconfiguratie kunnen ontwikkelaars ondersteunen door volledig geconfigureerde omgevingen te bieden voor willekeurige repositories zonder handmatige inspanning. Dit helpt ook SE-onderzoekers om op uitvoering gebaseerde benchmarks op te schalen. Recente studies tonen echter aan dat zelfs state-of-the-art Large Language Models (LLMs) beperkt succes hebben bij het automatiseren van deze taak. Om deze beperking aan te pakken, tunen we een gespecialiseerd model voor omgevingsconfiguratie. We combineren supervised fine-tuning voor het genereren van correcte Bash-scripts en Reinforcement Learning with Verifiable Rewards (RLVR) om het aan te passen aan de taak van omgevingsconfiguratie. Op EnvBench-Python stelt onze methode Qwen3-8B (een model dat op consumentenhardware kan draaien) in staat om op hetzelfde niveau te presteren als grotere modellen - Qwen3-32B en GPT-4o. De trainingscode en modelcheckpoints zijn online beschikbaar: https://github.com/JetBrains-Research/PIPer.
English
Environment setup-the process of configuring the system to work with a
specific software project-represents a persistent challenge in Software
Engineering (SE). Automated environment setup methods could assist developers
by providing fully configured environments for arbitrary repositories without
manual effort. This also helps SE researchers to scale execution-based
benchmarks. However, recent studies reveal that even state-of-the-art Large
Language Models (LLMs) achieve limited success in automating this task. To
address this limitation, we tune a specialized model for environment setup. We
combine supervised fine-tuning for generating correct Bash scripts and
Reinforcement Learning with Verifiable Rewards (RLVR) to adapt it to the task
of environment setup. On EnvBench-Python, our method enables Qwen3-8B (a model
runnable on consumer hardware) to perform on par with larger models-Qwen3-32B
and GPT-4o. The training code and model checkpoints are available online:
https://github.com/JetBrains-Research/PIPer.