PIPer: Configuración del entorno en el dispositivo mediante aprendizaje por refuerzo en línea

Resumen

La configuración del entorno—el proceso de ajustar el sistema para que funcione con un proyecto de software específico—representa un desafío persistente en la Ingeniería de Software (IS). Los métodos automatizados de configuración del entorno podrían ayudar a los desarrolladores al proporcionar entornos completamente configurados para repositorios arbitrarios sin necesidad de esfuerzo manual. Esto también ayuda a los investigadores en IS a escalar benchmarks basados en ejecución. Sin embargo, estudios recientes revelan que incluso los modelos de lenguaje de última generación (LLMs, por sus siglas en inglés) logran un éxito limitado en la automatización de esta tarea. Para abordar esta limitación, ajustamos un modelo especializado para la configuración del entorno. Combinamos el ajuste fino supervisado para generar scripts Bash correctos y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) para adaptarlo a la tarea de configuración del entorno. En EnvBench-Python, nuestro método permite que Qwen3-8B (un modelo ejecutable en hardware de consumo) tenga un rendimiento comparable con modelos más grandes como Qwen3-32B y GPT-4o. El código de entrenamiento y los puntos de control del modelo están disponibles en línea: https://github.com/JetBrains-Research/PIPer.

English

Environment setup-the process of configuring the system to work with a specific software project-represents a persistent challenge in Software Engineering (SE). Automated environment setup methods could assist developers by providing fully configured environments for arbitrary repositories without manual effort. This also helps SE researchers to scale execution-based benchmarks. However, recent studies reveal that even state-of-the-art Large Language Models (LLMs) achieve limited success in automating this task. To address this limitation, we tune a specialized model for environment setup. We combine supervised fine-tuning for generating correct Bash scripts and Reinforcement Learning with Verifiable Rewards (RLVR) to adapt it to the task of environment setup. On EnvBench-Python, our method enables Qwen3-8B (a model runnable on consumer hardware) to perform on par with larger models-Qwen3-32B and GPT-4o. The training code and model checkpoints are available online: https://github.com/JetBrains-Research/PIPer.

PIPer: Configuración del entorno en el dispositivo mediante aprendizaje por refuerzo en línea

PIPer: On-Device Environment Setup via Online Reinforcement Learning

Resumen

Support