PIPer: On-Device Omgevingconfiguratie via Online Reinforcement Learning

Samenvatting

Omgevingsconfiguratie - het proces van het instellen van het systeem om te werken met een specifiek softwareproject - vormt een aanhoudende uitdaging in Software Engineering (SE). Geautomatiseerde methoden voor omgevingsconfiguratie kunnen ontwikkelaars ondersteunen door volledig geconfigureerde omgevingen te bieden voor willekeurige repositories zonder handmatige inspanning. Dit helpt ook SE-onderzoekers om op uitvoering gebaseerde benchmarks op te schalen. Recente studies tonen echter aan dat zelfs state-of-the-art Large Language Models (LLMs) beperkt succes hebben bij het automatiseren van deze taak. Om deze beperking aan te pakken, tunen we een gespecialiseerd model voor omgevingsconfiguratie. We combineren supervised fine-tuning voor het genereren van correcte Bash-scripts en Reinforcement Learning with Verifiable Rewards (RLVR) om het aan te passen aan de taak van omgevingsconfiguratie. Op EnvBench-Python stelt onze methode Qwen3-8B (een model dat op consumentenhardware kan draaien) in staat om op hetzelfde niveau te presteren als grotere modellen - Qwen3-32B en GPT-4o. De trainingscode en modelcheckpoints zijn online beschikbaar: https://github.com/JetBrains-Research/PIPer.

English

Environment setup-the process of configuring the system to work with a specific software project-represents a persistent challenge in Software Engineering (SE). Automated environment setup methods could assist developers by providing fully configured environments for arbitrary repositories without manual effort. This also helps SE researchers to scale execution-based benchmarks. However, recent studies reveal that even state-of-the-art Large Language Models (LLMs) achieve limited success in automating this task. To address this limitation, we tune a specialized model for environment setup. We combine supervised fine-tuning for generating correct Bash scripts and Reinforcement Learning with Verifiable Rewards (RLVR) to adapt it to the task of environment setup. On EnvBench-Python, our method enables Qwen3-8B (a model runnable on consumer hardware) to perform on par with larger models-Qwen3-32B and GPT-4o. The training code and model checkpoints are available online: https://github.com/JetBrains-Research/PIPer.

PIPer: On-Device Omgevingconfiguratie via Online Reinforcement Learning

PIPer: On-Device Environment Setup via Online Reinforcement Learning

Samenvatting

Support