ChatPaper.aiChatPaper

Os Freelancers de IA Podem Competir? Avaliação de Ganhos, Confiabilidade e Sucesso em Tarefas em Escala

Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale

May 16, 2025
Autores: David Noever, Forrest McKee
cs.AI

Resumo

Este estudo explora os Modelos de Linguagem de Grande Escala (LLMs) como agentes autônomos para tarefas do mundo real, incluindo o desenvolvimento de software freelance. Este trabalho apresenta um novo benchmark que avalia LLMs em tarefas de programação e análise de dados freelance derivadas de dados econômicos. Construímos o benchmark utilizando tarefas sintéticas criadas a partir de um conjunto de dados de anúncios de empregos do Kaggle Freelancer, com todos os preços dos projetos padronizados em USD (preço mediano de projeto fixo em torno de 250, e uma média de 306). Cada tarefa é acompanhada por casos de teste estruturados de entrada-saída e uma etiqueta de preço estimada, permitindo a verificação automática de correção e uma avaliação de desempenho monetário. Essa abordagem é inspirada no recente benchmark SWE-Lancer da OpenAI (1.400 tarefas reais do Upwork no valor total de 1 milhão). No entanto, nosso framework simplifica a avaliação utilizando tarefas testáveis programaticamente e valores de preço previstos, tornando-o altamente escalável e repetível. Neste benchmark, avaliamos quatro LLMs modernos - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 e Mistral. Relatamos a precisão de cada modelo (taxa de sucesso da tarefa e taxa de aprovação dos casos de teste) e o total de "ganhos freelance" que ele alcança (soma dos preços das tarefas resolvidas). Nossos resultados mostram que o Claude 3.5 Haiku tem o melhor desempenho, ganhando aproximadamente 1,52 milhão de USD, seguido de perto pelo GPT-4o-mini com 1,49 milhão, depois Qwen 2.5 (1,33M) e Mistral (0,70M). Analisamos a distribuição de erros por tarefa e observamos que os modelos mais fortes resolvem a maioria das tarefas e raramente falham completamente em qualquer projeto. Discutimos as implicações desses resultados para a viabilidade da IA como desenvolvedora freelance, as vantagens e limitações de nossa abordagem de benchmark automatizado e a lacuna entre o desempenho em tarefas estruturadas versus a verdadeira complexidade dos trabalhos freelance do mundo real.
English
This study explores Large Language Models (LLMs) as autonomous agents for real-world tasks, including freelance software development. This work presents a new benchmark that evaluates LLMs on freelance programming and data analysis tasks derived from economic data. We construct the benchmark using synthetic tasks created from a Kaggle Freelancer dataset of job postings, with all job prices standardized to USD (median fixed-project price around 250, and an average of 306). Each task is accompanied by structured input-output test cases and an estimated price tag, enabling automated correctness checking and a monetary performance valuation. This approach is inspired by OpenAI's recent SWE-Lancer benchmark (1,400 real Upwork tasks worth 1M total). Still, our framework simplifies evaluation using programmatically testable tasks and predicted price values, making it highly scalable and repeatable. On this benchmark, we evaluate four modern LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, and Mistral. We report each model's accuracy (task success rate and test-case pass rate) and the total "freelance earnings" it achieves (sum of prices of solved tasks). Our results show that Claude 3.5 Haiku performs best, earning approximately 1.52 million USD, followed closely by GPT-4o-mini at 1.49 million, then Qwen 2.5 (1.33M) and Mistral ($0.70M). We analyze the distribution of errors per task and observe that the strongest models solve the most tasks and rarely fail completely on any project. We discuss the implications of these results for the feasibility of AI as a freelance developer, the advantages and limitations of our automated benchmark approach, and the gap between performance on structured tasks versus the true complexity of real-world freelance jobs.
PDF12May 21, 2025