¿Pueden competir los freelancers de IA? Evaluación de ganancias, confiabilidad y éxito en tareas a gran escala
Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale
May 16, 2025
Autores: David Noever, Forrest McKee
cs.AI
Resumen
Este estudio explora los Modelos de Lenguaje de Gran Escala (LLMs) como agentes autónomos para tareas del mundo real, incluyendo el desarrollo de software freelance. Este trabajo presenta un nuevo benchmark que evalúa LLMs en tareas de programación y análisis de datos freelance derivadas de datos económicos. Construimos el benchmark utilizando tareas sintéticas creadas a partir de un conjunto de datos de ofertas de trabajo de Kaggle Freelancer, con todos los precios de los proyectos estandarizados en USD (precio mediano de proyecto fijo alrededor de 250, y un promedio de 306). Cada tarea está acompañada de casos de prueba estructurados de entrada-salida y un precio estimado, permitiendo la verificación automática de la corrección y una valoración monetaria del rendimiento. Este enfoque está inspirado en el reciente benchmark SWE-Lancer de OpenAI (1,400 tareas reales de Upwork con un valor total de 1 millón). Sin embargo, nuestro marco simplifica la evaluación utilizando tareas programáticamente verificables y valores de precio predichos, haciéndolo altamente escalable y repetible. En este benchmark, evaluamos cuatro LLMs modernos: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 y Mistral. Reportamos la precisión de cada modelo (tasa de éxito en tareas y tasa de aprobación de casos de prueba) y los "ingresos freelance" totales que alcanza (suma de los precios de las tareas resueltas). Nuestros resultados muestran que Claude 3.5 Haiku tiene el mejor desempeño, ganando aproximadamente 1.52 millones de USD, seguido de cerca por GPT-4o-mini con 1.49 millones, luego Qwen 2.5 (1.33M) y Mistral ($0.70M). Analizamos la distribución de errores por tarea y observamos que los modelos más fuertes resuelven la mayoría de las tareas y rara vez fallan completamente en cualquier proyecto. Discutimos las implicaciones de estos resultados para la viabilidad de la IA como desarrollador freelance, las ventajas y limitaciones de nuestro enfoque de benchmark automatizado, y la brecha entre el rendimiento en tareas estructuradas versus la verdadera complejidad de los trabajos freelance del mundo real.
English
This study explores Large Language Models (LLMs) as autonomous agents for
real-world tasks, including freelance software development. This work presents
a new benchmark that evaluates LLMs on freelance programming and data analysis
tasks derived from economic data. We construct the benchmark using synthetic
tasks created from a Kaggle Freelancer dataset of job postings, with all job
prices standardized to USD (median fixed-project price around 250, and an
average of 306). Each task is accompanied by structured input-output test
cases and an estimated price tag, enabling automated correctness checking and a
monetary performance valuation. This approach is inspired by OpenAI's recent
SWE-Lancer benchmark (1,400 real Upwork tasks worth 1M total). Still, our
framework simplifies evaluation using programmatically testable tasks and
predicted price values, making it highly scalable and repeatable. On this
benchmark, we evaluate four modern LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen
2.5, and Mistral. We report each model's accuracy (task success rate and
test-case pass rate) and the total "freelance earnings" it achieves (sum of
prices of solved tasks). Our results show that Claude 3.5 Haiku performs best,
earning approximately 1.52 million USD, followed closely by GPT-4o-mini at
1.49 million, then Qwen 2.5 (1.33M) and Mistral ($0.70M). We analyze the
distribution of errors per task and observe that the strongest models solve the
most tasks and rarely fail completely on any project. We discuss the
implications of these results for the feasibility of AI as a freelance
developer, the advantages and limitations of our automated benchmark approach,
and the gap between performance on structured tasks versus the true complexity
of real-world freelance jobs.Summary
AI-Generated Summary