ChatPaper.aiChatPaper

Kunnen AI-freelancers concurreren? Benchmarking van inkomsten, betrouwbaarheid en taaksucces op grote schaal

Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale

May 16, 2025
Auteurs: David Noever, Forrest McKee
cs.AI

Samenvatting

Dit onderzoek verkent Large Language Models (LLMs) als autonome agents voor taken in de echte wereld, waaronder freelance softwareontwikkeling. Dit werk introduceert een nieuwe benchmark die LLMs evalueert op freelance programmeer- en data-analysetaken afgeleid van economische data. We construeren de benchmark met synthetische taken gemaakt van een Kaggle Freelancer dataset van vacatures, waarbij alle prijzen gestandaardiseerd zijn in USD (mediaan vaste projectprijs rond 250, en een gemiddelde van 306). Elke taak wordt vergezeld door gestructureerde invoer-uitvoer testgevallen en een geschat prijskaartje, wat geautomatiseerde correctheidscontrole en een monetaire prestatie-evaluatie mogelijk maakt. Deze aanpak is geïnspireerd door OpenAI's recente SWE-Lancer benchmark (1.400 echte Upwork taken ter waarde van 1 miljoen totaal). Toch vereenvoudigt ons framework de evaluatie door gebruik te maken van programmatisch testbare taken en voorspelde prijswaarden, waardoor het zeer schaalbaar en herhaalbaar is. Op deze benchmark evalueren we vier moderne LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, en Mistral. We rapporteren de nauwkeurigheid van elk model (taaksuccespercentage en testgeval slaagpercentage) en de totale "freelance verdiensten" die het behaalt (som van de prijzen van opgeloste taken). Onze resultaten tonen aan dat Claude 3.5 Haiku het beste presteert, met een verdienste van ongeveer 1,52 miljoen USD, op de voet gevolgd door GPT-4o-mini met 1,49 miljoen, dan Qwen 2.5 (1,33 miljoen) en Mistral (0,70 miljoen). We analyseren de verdeling van fouten per taak en observeren dat de sterkste modellen de meeste taken oplossen en zelden volledig falen bij een project. We bespreken de implicaties van deze resultaten voor de haalbaarheid van AI als freelance ontwikkelaar, de voordelen en beperkingen van onze geautomatiseerde benchmark aanpak, en de kloof tussen prestaties op gestructureerde taken versus de echte complexiteit van real-world freelance banen.
English
This study explores Large Language Models (LLMs) as autonomous agents for real-world tasks, including freelance software development. This work presents a new benchmark that evaluates LLMs on freelance programming and data analysis tasks derived from economic data. We construct the benchmark using synthetic tasks created from a Kaggle Freelancer dataset of job postings, with all job prices standardized to USD (median fixed-project price around 250, and an average of 306). Each task is accompanied by structured input-output test cases and an estimated price tag, enabling automated correctness checking and a monetary performance valuation. This approach is inspired by OpenAI's recent SWE-Lancer benchmark (1,400 real Upwork tasks worth 1M total). Still, our framework simplifies evaluation using programmatically testable tasks and predicted price values, making it highly scalable and repeatable. On this benchmark, we evaluate four modern LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, and Mistral. We report each model's accuracy (task success rate and test-case pass rate) and the total "freelance earnings" it achieves (sum of prices of solved tasks). Our results show that Claude 3.5 Haiku performs best, earning approximately 1.52 million USD, followed closely by GPT-4o-mini at 1.49 million, then Qwen 2.5 (1.33M) and Mistral ($0.70M). We analyze the distribution of errors per task and observe that the strongest models solve the most tasks and rarely fail completely on any project. We discuss the implications of these results for the feasibility of AI as a freelance developer, the advantages and limitations of our automated benchmark approach, and the gap between performance on structured tasks versus the true complexity of real-world freelance jobs.

Summary

AI-Generated Summary

PDF12May 21, 2025