SWE-World: Het Bouwen van Software Engineering Agents in Docker-Vrije Omgevingen

Samenvatting

Recente vooruitgang in grote taalmodellen (LLM's) heeft software-engineeringagenten in staat gesteld complexe codewijzigingstaken aan te pakken. De meeste bestaande benaderingen vertrouwen op uitvoeringsfeedback van gecontaineriseerde omgevingen, die een afhankelijkheidscomplete setup en fysieke uitvoering van programma's en tests vereisen. Hoewel effectief, is dit paradigma resource-intensief en moeilijk te onderhouden, wat de training van agenten aanzienlijk compliceert en de schaalbaarheid beperkt. Wij stellen SWE-World voor, een Docker-vrij framework dat fysieke uitvoeringsomgevingen vervangt door een geleerde surrogaat voor het trainen en evalueren van software-engineeringagenten. SWE-World benut op LLM gebaseerde modellen, getraind op echte interactiedata tussen agent en omgeving, om tussenliggende uitvoeringsresultaten en uiteindelijke testfeedback te voorspellen, waardoor agenten kunnen leren zonder interactie met fysieke gecontaineriseerde omgevingen. Dit ontwerp behoudt de standaard interactielus tussen agent en omgeving, terwijl de behoefte aan kostbare omgevingsconstructie en -onderhoud tijdens agentoptimalisatie en evaluatie wordt geëlimineerd. Bovendien, omdat SWE-World de finale evaluatieresultaten van kandidaat-trajecten kan simuleren zonder echte inzending, maakt het de selectie van de beste oplossing mogelijk uit meerdere testtijdpogingen, waardoor effectieve schaling tijdens testtijd (TTS) in software-engineeringtaken wordt gefaciliteerd. Experimenten op SWE-bench Verified tonen aan dat SWE-World Qwen2.5-Coder-32B verhoogt van 6,2% naar 52,0% via Docker-vrije SFT, naar 55,0% met Docker-vrije RL, en naar 68,2% met verdere TTS. De code is beschikbaar op https://github.com/RUCAIBox/SWE-World.

English

Recent advances in large language models (LLMs) have enabled software engineering agents to tackle complex code modification tasks. Most existing approaches rely on execution feedback from containerized environments, which require dependency-complete setup and physical execution of programs and tests. While effective, this paradigm is resource-intensive and difficult to maintain, substantially complicating agent training and limiting scalability. We propose SWE-World, a Docker-free framework that replaces physical execution environments with a learned surrogate for training and evaluating software engineering agents. SWE-World leverages LLM-based models trained on real agent-environment interaction data to predict intermediate execution outcomes and final test feedback, enabling agents to learn without interacting with physical containerized environments. This design preserves the standard agent-environment interaction loop while eliminating the need for costly environment construction and maintenance during agent optimization and evaluation. Furthermore, because SWE-World can simulate the final evaluation outcomes of candidate trajectories without real submission, it enables selecting the best solution among multiple test-time attempts, thereby facilitating effective test-time scaling (TTS) in software engineering tasks. Experiments on SWE-bench Verified demonstrate that SWE-World raises Qwen2.5-Coder-32B from 6.2\% to 52.0\% via Docker-free SFT, 55.0\% with Docker-free RL, and 68.2\% with further TTS. The code is available at https://github.com/RUCAIBox/SWE-World

SWE-World: Het Bouwen van Software Engineering Agents in Docker-Vrije Omgevingen

SWE-World: Building Software Engineering Agents in Docker-Free Environments

Samenvatting

Support