PIPer: Configurazione dell'Ambiente su Dispositivo tramite Apprendimento per Rinforzo Online
PIPer: On-Device Environment Setup via Online Reinforcement Learning
September 29, 2025
Autori: Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, Egor Bogomolov, Yaroslav Zharov
cs.AI
Abstract
La configurazione dell'ambiente - il processo di impostazione del sistema per lavorare con un progetto software specifico - rappresenta una sfida persistente nell'Ingegneria del Software (SE). I metodi automatizzati per la configurazione dell'ambiente potrebbero assistere gli sviluppatori fornendo ambienti completamente configurati per repository arbitrari senza sforzo manuale. Questo aiuta anche i ricercatori di SE a scalare benchmark basati sull'esecuzione. Tuttavia, studi recenti rivelano che anche i modelli linguistici di ultima generazione (LLM) ottengono un successo limitato nell'automatizzare questo compito. Per affrontare questa limitazione, ottimizziamo un modello specializzato per la configurazione dell'ambiente. Combiniamo il fine-tuning supervisionato per generare script Bash corretti e l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per adattarlo al compito di configurazione dell'ambiente. Su EnvBench-Python, il nostro metodo consente a Qwen3-8B (un modello eseguibile su hardware consumer) di performare alla pari con modelli più grandi - Qwen3-32B e GPT-4o. Il codice di addestramento e i checkpoint del modello sono disponibili online: https://github.com/JetBrains-Research/PIPer.
English
Environment setup-the process of configuring the system to work with a
specific software project-represents a persistent challenge in Software
Engineering (SE). Automated environment setup methods could assist developers
by providing fully configured environments for arbitrary repositories without
manual effort. This also helps SE researchers to scale execution-based
benchmarks. However, recent studies reveal that even state-of-the-art Large
Language Models (LLMs) achieve limited success in automating this task. To
address this limitation, we tune a specialized model for environment setup. We
combine supervised fine-tuning for generating correct Bash scripts and
Reinforcement Learning with Verifiable Rewards (RLVR) to adapt it to the task
of environment setup. On EnvBench-Python, our method enables Qwen3-8B (a model
runnable on consumer hardware) to perform on par with larger models-Qwen3-32B
and GPT-4o. The training code and model checkpoints are available online:
https://github.com/JetBrains-Research/PIPer.