I liberi professionisti dell'IA possono competere? Benchmark su guadagni, affidabilità e successo dei compiti su larga scala

Abstract

Questo studio esplora i Modelli Linguistici di Grande Dimensione (LLM) come agenti autonomi per compiti del mondo reale, inclusi lo sviluppo software freelance. Questo lavoro presenta un nuovo benchmark che valuta gli LLM su attività di programmazione e analisi dati freelance derivate da dati economici. Costruiamo il benchmark utilizzando compiti sintetici creati da un dataset Kaggle Freelancer di annunci di lavoro, con tutti i prezzi dei progetti standardizzati in USD (prezzo mediano per progetto fisso intorno a 250, e una media di 306). Ogni compito è accompagnato da casi di test strutturati input-output e un prezzo stimato, consentendo il controllo automatico della correttezza e una valutazione monetaria delle prestazioni. Questo approccio è ispirato dal recente benchmark SWE-Lancer di OpenAI (1.400 compiti reali di Upwork per un valore totale di 1 milione). Tuttavia, il nostro framework semplifica la valutazione utilizzando compiti verificabili programmaticamente e valori di prezzo predetti, rendendolo altamente scalabile e ripetibile. Su questo benchmark, valutiamo quattro moderni LLM - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 e Mistral. Riportiamo l'accuratezza di ciascun modello (tasso di successo dei compiti e tasso di superamento dei test) e i "guadagni freelance" totali che ottiene (somma dei prezzi dei compiti risolti). I nostri risultati mostrano che Claude 3.5 Haiku si comporta meglio, guadagnando circa 1,52 milioni di USD, seguito da vicino da GPT-4o-mini a 1,49 milioni, poi Qwen 2.5 (1,33 milioni) e Mistral (0,70 milioni). Analizziamo la distribuzione degli errori per compito e osserviamo che i modelli più forti risolvono il maggior numero di compiti e raramente falliscono completamente su qualsiasi progetto. Discutiamo le implicazioni di questi risultati per la fattibilità dell'IA come sviluppatore freelance, i vantaggi e i limiti del nostro approccio di benchmark automatizzato e il divario tra le prestazioni su compiti strutturati rispetto alla vera complessità dei lavori freelance del mondo reale.

English

This study explores Large Language Models (LLMs) as autonomous agents for real-world tasks, including freelance software development. This work presents a new benchmark that evaluates LLMs on freelance programming and data analysis tasks derived from economic data. We construct the benchmark using synthetic tasks created from a Kaggle Freelancer dataset of job postings, with all job prices standardized to USD (median fixed-project price around 250, and an average of 306). Each task is accompanied by structured input-output test cases and an estimated price tag, enabling automated correctness checking and a monetary performance valuation. This approach is inspired by OpenAI's recent SWE-Lancer benchmark (1,400 real Upwork tasks worth 1M total). Still, our framework simplifies evaluation using programmatically testable tasks and predicted price values, making it highly scalable and repeatable. On this benchmark, we evaluate four modern LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, and Mistral. We report each model's accuracy (task success rate and test-case pass rate) and the total "freelance earnings" it achieves (sum of prices of solved tasks). Our results show that Claude 3.5 Haiku performs best, earning approximately 1.52 million USD, followed closely by GPT-4o-mini at 1.49 million, then Qwen 2.5 (1.33M) and Mistral ($0.70M). We analyze the distribution of errors per task and observe that the strongest models solve the most tasks and rarely fail completely on any project. We discuss the implications of these results for the feasibility of AI as a freelance developer, the advantages and limitations of our automated benchmark approach, and the gap between performance on structured tasks versus the true complexity of real-world freelance jobs.

I liberi professionisti dell'IA possono competere? Benchmark su guadagni, affidabilità e successo dei compiti su larga scala

Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale

Abstract

Support