Les freelances IA peuvent-ils rivaliser ? Benchmarking des revenus, de la fiabilité et de la réussite des tâches à grande échelle
Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale
May 16, 2025
Auteurs: David Noever, Forrest McKee
cs.AI
Résumé
Cette étude explore les modèles de langage à grande échelle (LLMs) en tant qu'agents autonomes pour des tâches du monde réel, incluant le développement logiciel en freelance. Ce travail présente un nouveau benchmark qui évalue les LLMs sur des tâches de programmation et d'analyse de données freelance dérivées de données économiques. Nous construisons ce benchmark en utilisant des tâches synthétiques créées à partir d'un ensemble de données Kaggle Freelancer d'offres d'emploi, avec tous les prix des projets standardisés en USD (prix médian de projet fixe autour de 250, et une moyenne de 306). Chaque tâche est accompagnée de cas de test structurés en entrée-sortie et d'une estimation de prix, permettant une vérification automatisée de la correction et une évaluation monétaire de la performance. Cette approche s'inspire du récent benchmark SWE-Lancer d'OpenAI (1 400 tâches réelles Upwork valant 1M au total). Cependant, notre framework simplifie l'évaluation en utilisant des tâches testables programmatiquement et des valeurs de prix prédites, le rendant hautement scalable et reproductible. Sur ce benchmark, nous évaluons quatre LLMs modernes - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 et Mistral. Nous rapportons la précision de chaque modèle (taux de réussite des tâches et taux de réussite des cas de test) et le total des "gains freelance" qu'il réalise (somme des prix des tâches résolues). Nos résultats montrent que Claude 3.5 Haiku performe le mieux, gagnant environ 1,52 million USD, suivi de près par GPT-4o-mini à 1,49 million, puis Qwen 2.5 (1,33M) et Mistral (0,70M). Nous analysons la distribution des erreurs par tâche et observons que les modèles les plus forts résolvent le plus de tâches et échouent rarement complètement sur un projet. Nous discutons des implications de ces résultats pour la faisabilité de l'IA en tant que développeur freelance, des avantages et limites de notre approche de benchmark automatisé, et de l'écart entre la performance sur des tâches structurées et la complexité réelle des emplois freelance.
English
This study explores Large Language Models (LLMs) as autonomous agents for
real-world tasks, including freelance software development. This work presents
a new benchmark that evaluates LLMs on freelance programming and data analysis
tasks derived from economic data. We construct the benchmark using synthetic
tasks created from a Kaggle Freelancer dataset of job postings, with all job
prices standardized to USD (median fixed-project price around 250, and an
average of 306). Each task is accompanied by structured input-output test
cases and an estimated price tag, enabling automated correctness checking and a
monetary performance valuation. This approach is inspired by OpenAI's recent
SWE-Lancer benchmark (1,400 real Upwork tasks worth 1M total). Still, our
framework simplifies evaluation using programmatically testable tasks and
predicted price values, making it highly scalable and repeatable. On this
benchmark, we evaluate four modern LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen
2.5, and Mistral. We report each model's accuracy (task success rate and
test-case pass rate) and the total "freelance earnings" it achieves (sum of
prices of solved tasks). Our results show that Claude 3.5 Haiku performs best,
earning approximately 1.52 million USD, followed closely by GPT-4o-mini at
1.49 million, then Qwen 2.5 (1.33M) and Mistral ($0.70M). We analyze the
distribution of errors per task and observe that the strongest models solve the
most tasks and rarely fail completely on any project. We discuss the
implications of these results for the feasibility of AI as a freelance
developer, the advantages and limitations of our automated benchmark approach,
and the gap between performance on structured tasks versus the true complexity
of real-world freelance jobs.Summary
AI-Generated Summary