Могут ли фрилансеры в области ИИ конкурировать? Оценка заработка, надежности и успешности выполнения задач в масштабе
Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale
May 16, 2025
Авторы: David Noever, Forrest McKee
cs.AI
Аннотация
Данное исследование рассматривает крупные языковые модели (LLM) в качестве автономных агентов для выполнения реальных задач, включая фриланс-разработку программного обеспечения. В работе представлен новый бенчмарк, который оценивает LLM на задачах фриланс-программирования и анализа данных, основанных на экономических данных. Бенчмарк построен с использованием синтетических задач, созданных на основе набора данных Kaggle Freelancer, содержащего объявления о вакансиях, с унифицированными ценами в долларах США (медианная стоимость проекта составляет около 250 долларов, средняя — 306). Каждая задача сопровождается структурированными тестовыми примерами входных и выходных данных, а также предполагаемой стоимостью, что позволяет автоматизировать проверку корректности и оценить производительность в денежном выражении. Этот подход вдохновлен недавним бенчмарком OpenAI SWE-Lancer (1 400 реальных задач с Upwork общей стоимостью 1 миллион долларов). Однако наш фреймворк упрощает оценку за счет использования задач, которые можно программно тестировать, и прогнозируемых стоимостей, что делает его высокомасштабируемым и воспроизводимым. На этом бенчмарке мы оцениваем четыре современные LLM: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 и Mistral. Мы сообщаем точность каждой модели (доля успешно выполненных задач и пройденных тестовых случаев) и общий "фриланс-доход" (сумма стоимостей решенных задач). Наши результаты показывают, что Claude 3.5 Haiku демонстрирует наилучшие результаты, зарабатывая примерно 1,52 миллиона долларов, за ним следует GPT-4o-mini с 1,49 миллиона, затем Qwen 2.5 (1,33 миллиона) и Mistral (0,70 миллиона). Мы анализируем распределение ошибок по задачам и отмечаем, что наиболее сильные модели решают больше всего задач и редко полностью проваливаются на каком-либо проекте. Мы обсуждаем последствия этих результатов для осуществимости использования ИИ в качестве фриланс-разработчика, преимущества и ограничения нашего автоматизированного подхода к бенчмаркингу, а также разрыв между производительностью на структурированных задачах и реальной сложностью фриланс-работы.
English
This study explores Large Language Models (LLMs) as autonomous agents for
real-world tasks, including freelance software development. This work presents
a new benchmark that evaluates LLMs on freelance programming and data analysis
tasks derived from economic data. We construct the benchmark using synthetic
tasks created from a Kaggle Freelancer dataset of job postings, with all job
prices standardized to USD (median fixed-project price around 250, and an
average of 306). Each task is accompanied by structured input-output test
cases and an estimated price tag, enabling automated correctness checking and a
monetary performance valuation. This approach is inspired by OpenAI's recent
SWE-Lancer benchmark (1,400 real Upwork tasks worth 1M total). Still, our
framework simplifies evaluation using programmatically testable tasks and
predicted price values, making it highly scalable and repeatable. On this
benchmark, we evaluate four modern LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen
2.5, and Mistral. We report each model's accuracy (task success rate and
test-case pass rate) and the total "freelance earnings" it achieves (sum of
prices of solved tasks). Our results show that Claude 3.5 Haiku performs best,
earning approximately 1.52 million USD, followed closely by GPT-4o-mini at
1.49 million, then Qwen 2.5 (1.33M) and Mistral ($0.70M). We analyze the
distribution of errors per task and observe that the strongest models solve the
most tasks and rarely fail completely on any project. We discuss the
implications of these results for the feasibility of AI as a freelance
developer, the advantages and limitations of our automated benchmark approach,
and the gap between performance on structured tasks versus the true complexity
of real-world freelance jobs.Summary
AI-Generated Summary