PIPer: Configurazione dell'Ambiente su Dispositivo tramite Apprendimento per Rinforzo Online

Abstract

La configurazione dell'ambiente - il processo di impostazione del sistema per lavorare con un progetto software specifico - rappresenta una sfida persistente nell'Ingegneria del Software (SE). I metodi automatizzati per la configurazione dell'ambiente potrebbero assistere gli sviluppatori fornendo ambienti completamente configurati per repository arbitrari senza sforzo manuale. Questo aiuta anche i ricercatori di SE a scalare benchmark basati sull'esecuzione. Tuttavia, studi recenti rivelano che anche i modelli linguistici di ultima generazione (LLM) ottengono un successo limitato nell'automatizzare questo compito. Per affrontare questa limitazione, ottimizziamo un modello specializzato per la configurazione dell'ambiente. Combiniamo il fine-tuning supervisionato per generare script Bash corretti e l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per adattarlo al compito di configurazione dell'ambiente. Su EnvBench-Python, il nostro metodo consente a Qwen3-8B (un modello eseguibile su hardware consumer) di performare alla pari con modelli più grandi - Qwen3-32B e GPT-4o. Il codice di addestramento e i checkpoint del modello sono disponibili online: https://github.com/JetBrains-Research/PIPer.

English

Environment setup-the process of configuring the system to work with a specific software project-represents a persistent challenge in Software Engineering (SE). Automated environment setup methods could assist developers by providing fully configured environments for arbitrary repositories without manual effort. This also helps SE researchers to scale execution-based benchmarks. However, recent studies reveal that even state-of-the-art Large Language Models (LLMs) achieve limited success in automating this task. To address this limitation, we tune a specialized model for environment setup. We combine supervised fine-tuning for generating correct Bash scripts and Reinforcement Learning with Verifiable Rewards (RLVR) to adapt it to the task of environment setup. On EnvBench-Python, our method enables Qwen3-8B (a model runnable on consumer hardware) to perform on par with larger models-Qwen3-32B and GPT-4o. The training code and model checkpoints are available online: https://github.com/JetBrains-Research/PIPer.

PIPer: Configurazione dell'Ambiente su Dispositivo tramite Apprendimento per Rinforzo Online

PIPer: On-Device Environment Setup via Online Reinforcement Learning

Abstract

Support