Remote Labor Index: Messung der KI-Automatisierung von Remote-Arbeit

Zusammenfassung

Künstliche Intelligenzen haben rasche Fortschritte bei forschungsorientierten Benchmarks für Wissen und logisches Denken erzielt, doch es ist nach wie vor unklar, wie sich diese Gewinne in wirtschaftlichen Wert und Automatisierung übersetzen. Um dies zu messen, führen wir den Remote Labor Index (RLI) ein, einen breit angelegten, multisektoralen Benchmark, der realwirtschaftliche, wirtschaftlich wertvolle Projekte umfasst, um die End-to-End-Leistung von KI-Agenten in praktischen Anwendungsszenarien zu bewerten. KI-Agenten schneiden beim RLI nahe der Basisgrenze ab, wobei der leistungsstärkste Agent eine Automatisierungsrate von 2,5 % erreicht. Diese Ergebnisse helfen, Diskussionen über KI-Automatisierung auf empirische Evidenz zu gründen, schaffen eine gemeinsame Basis zur Verfolgung der KI-Auswirkungen und ermöglichen es Stakeholdern, die durch KI getriebene Arbeitsautomatisierung proaktiv zu gestalten.

English

AIs have made rapid progress on research-oriented benchmarks of knowledge and reasoning, but it remains unclear how these gains translate into economic value and automation. To measure this, we introduce the Remote Labor Index (RLI), a broadly multi-sector benchmark comprising real-world, economically valuable projects designed to evaluate end-to-end agent performance in practical settings. AI agents perform near the floor on RLI, with the highest-performing agent achieving an automation rate of 2.5%. These results help ground discussions of AI automation in empirical evidence, setting a common basis for tracking AI impacts and enabling stakeholders to proactively navigate AI-driven labor automation.