I liberi professionisti dell'IA possono competere? Benchmark su guadagni, affidabilità e successo dei compiti su larga scala
Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale
May 16, 2025
Autori: David Noever, Forrest McKee
cs.AI
Abstract
Questo studio esplora i Modelli Linguistici di Grande Dimensione (LLM) come agenti autonomi per compiti del mondo reale, inclusi lo sviluppo software freelance. Questo lavoro presenta un nuovo benchmark che valuta gli LLM su attività di programmazione e analisi dati freelance derivate da dati economici. Costruiamo il benchmark utilizzando compiti sintetici creati da un dataset Kaggle Freelancer di annunci di lavoro, con tutti i prezzi dei progetti standardizzati in USD (prezzo mediano per progetto fisso intorno a 250, e una media di 306). Ogni compito è accompagnato da casi di test strutturati input-output e un prezzo stimato, consentendo il controllo automatico della correttezza e una valutazione monetaria delle prestazioni. Questo approccio è ispirato dal recente benchmark SWE-Lancer di OpenAI (1.400 compiti reali di Upwork per un valore totale di 1 milione). Tuttavia, il nostro framework semplifica la valutazione utilizzando compiti verificabili programmaticamente e valori di prezzo predetti, rendendolo altamente scalabile e ripetibile. Su questo benchmark, valutiamo quattro moderni LLM - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 e Mistral. Riportiamo l'accuratezza di ciascun modello (tasso di successo dei compiti e tasso di superamento dei test) e i "guadagni freelance" totali che ottiene (somma dei prezzi dei compiti risolti). I nostri risultati mostrano che Claude 3.5 Haiku si comporta meglio, guadagnando circa 1,52 milioni di USD, seguito da vicino da GPT-4o-mini a 1,49 milioni, poi Qwen 2.5 (1,33 milioni) e Mistral (0,70 milioni). Analizziamo la distribuzione degli errori per compito e osserviamo che i modelli più forti risolvono il maggior numero di compiti e raramente falliscono completamente su qualsiasi progetto. Discutiamo le implicazioni di questi risultati per la fattibilità dell'IA come sviluppatore freelance, i vantaggi e i limiti del nostro approccio di benchmark automatizzato e il divario tra le prestazioni su compiti strutturati rispetto alla vera complessità dei lavori freelance del mondo reale.
English
This study explores Large Language Models (LLMs) as autonomous agents for
real-world tasks, including freelance software development. This work presents
a new benchmark that evaluates LLMs on freelance programming and data analysis
tasks derived from economic data. We construct the benchmark using synthetic
tasks created from a Kaggle Freelancer dataset of job postings, with all job
prices standardized to USD (median fixed-project price around 250, and an
average of 306). Each task is accompanied by structured input-output test
cases and an estimated price tag, enabling automated correctness checking and a
monetary performance valuation. This approach is inspired by OpenAI's recent
SWE-Lancer benchmark (1,400 real Upwork tasks worth 1M total). Still, our
framework simplifies evaluation using programmatically testable tasks and
predicted price values, making it highly scalable and repeatable. On this
benchmark, we evaluate four modern LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen
2.5, and Mistral. We report each model's accuracy (task success rate and
test-case pass rate) and the total "freelance earnings" it achieves (sum of
prices of solved tasks). Our results show that Claude 3.5 Haiku performs best,
earning approximately 1.52 million USD, followed closely by GPT-4o-mini at
1.49 million, then Qwen 2.5 (1.33M) and Mistral ($0.70M). We analyze the
distribution of errors per task and observe that the strongest models solve the
most tasks and rarely fail completely on any project. We discuss the
implications of these results for the feasibility of AI as a freelance
developer, the advantages and limitations of our automated benchmark approach,
and the gap between performance on structured tasks versus the true complexity
of real-world freelance jobs.