ChatPaper.aiChatPaper

Können KI-Freiberufler mithalten? Benchmarking von Einkommen, Zuverlässigkeit und Aufgabenbewältigung im großen Maßstab

Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale

May 16, 2025
Autoren: David Noever, Forrest McKee
cs.AI

Zusammenfassung

Diese Studie untersucht Large Language Models (LLMs) als autonome Agenten für reale Aufgaben, einschließlich freiberuflicher Softwareentwicklung. Die Arbeit stellt einen neuen Benchmark vor, der LLMs anhand von freiberuflichen Programmier- und Datenanalysaufgaben bewertet, die aus wirtschaftlichen Daten abgeleitet wurden. Wir konstruieren den Benchmark mithilfe synthetischer Aufgaben, die aus einem Kaggle-Freelancer-Datensatz von Stellenausschreibungen erstellt wurden, wobei alle Auftragspreise auf USD standardisiert sind (Median des Festpreisprojekts bei etwa 250 und ein Durchschnitt von 306). Jede Aufgabe wird von strukturierten Eingabe-Ausgabe-Testfällen und einem geschätzten Preisschild begleitet, was eine automatisierte Korrektheitsprüfung und eine monetäre Leistungsbewertung ermöglicht. Dieser Ansatz ist von OpenAIs kürzlich veröffentlichtem SWE-Lancer-Benchmark inspiriert (1.400 reale Upwork-Aufgaben im Wert von insgesamt 1 Mio. USD). Unser Framework vereinfacht jedoch die Bewertung durch die Verwendung von programmatisch testbaren Aufgaben und vorhergesagten Preiswerten, was es hoch skalierbar und wiederholbar macht. Auf diesem Benchmark bewerten wir vier moderne LLMs – Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 und Mistral. Wir berichten über die Genauigkeit jedes Modells (Aufgabenerfolgsrate und Testfall-Durchlaufrate) sowie die gesamten „freiberuflichen Einnahmen“, die es erzielt (Summe der Preise der gelösten Aufgaben). Unsere Ergebnisse zeigen, dass Claude 3.5 Haiku am besten abschneidet und etwa 1,52 Millionen USD verdient, dicht gefolgt von GPT-4o-mini mit 1,49 Millionen, dann Qwen 2.5 (1,33 Mio.) und Mistral (0,70 Mio. USD). Wir analysieren die Verteilung der Fehler pro Aufgabe und beobachten, dass die stärksten Modelle die meisten Aufgaben lösen und selten vollständig bei einem Projekt scheitern. Wir diskutieren die Implikationen dieser Ergebnisse für die Machbarkeit von KI als freiberuflicher Entwickler, die Vorteile und Grenzen unseres automatisierten Benchmark-Ansatzes sowie die Lücke zwischen der Leistung bei strukturierten Aufgaben und der tatsächlichen Komplexität realer freiberuflicher Jobs.
English
This study explores Large Language Models (LLMs) as autonomous agents for real-world tasks, including freelance software development. This work presents a new benchmark that evaluates LLMs on freelance programming and data analysis tasks derived from economic data. We construct the benchmark using synthetic tasks created from a Kaggle Freelancer dataset of job postings, with all job prices standardized to USD (median fixed-project price around 250, and an average of 306). Each task is accompanied by structured input-output test cases and an estimated price tag, enabling automated correctness checking and a monetary performance valuation. This approach is inspired by OpenAI's recent SWE-Lancer benchmark (1,400 real Upwork tasks worth 1M total). Still, our framework simplifies evaluation using programmatically testable tasks and predicted price values, making it highly scalable and repeatable. On this benchmark, we evaluate four modern LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, and Mistral. We report each model's accuracy (task success rate and test-case pass rate) and the total "freelance earnings" it achieves (sum of prices of solved tasks). Our results show that Claude 3.5 Haiku performs best, earning approximately 1.52 million USD, followed closely by GPT-4o-mini at 1.49 million, then Qwen 2.5 (1.33M) and Mistral ($0.70M). We analyze the distribution of errors per task and observe that the strongest models solve the most tasks and rarely fail completely on any project. We discuss the implications of these results for the feasibility of AI as a freelance developer, the advantages and limitations of our automated benchmark approach, and the gap between performance on structured tasks versus the true complexity of real-world freelance jobs.

Summary

AI-Generated Summary

PDF01May 21, 2025