遠隔労働指数:リモートワークのAI自動化の測定
Remote Labor Index: Measuring AI Automation of Remote Work
October 30, 2025
著者: Mantas Mazeika, Alice Gatti, Cristina Menghini, Udari Madhushani Sehwag, Shivam Singhal, Yury Orlovskiy, Steven Basart, Manasi Sharma, Denis Peskoff, Elaine Lau, Jaehyuk Lim, Lachlan Carroll, Alice Blair, Vinaya Sivakumar, Sumana Basu, Brad Kenstler, Yuntao Ma, Julian Michael, Xiaoke Li, Oliver Ingebretsen, Aditya Mehta, Jean Mottola, John Teichmann, Kevin Yu, Zaina Shaik, Adam Khoja, Richard Ren, Jason Hausenloy, Long Phan, Ye Htet, Ankit Aich, Tahseen Rabbani, Vivswan Shah, Andriy Novykov, Felix Binder, Kirill Chugunov, Luis Ramirez, Matias Geralnik, Hernán Mesura, Dean Lee, Ed-Yeremai Hernandez Cardona, Annette Diamond, Summer Yue, Alexandr Wang, Bing Liu, Ernesto Hernandez, Dan Hendrycks
cs.AI
要旨
AIは知識や推論に関する研究志向のベンチマークで急速な進歩を遂げているが、こうした進歩が経済的価値や自動化にどのように転換されるかは不明瞭である。これを測定するため、我々は実用的な環境におけるエンドツーエンドのエージェント性能を評価するために設計された、現実世界の経済的価値を持つプロジェクトで構成される広範なマルチセクターベンチマーク「Remote Labor Index(RLI)」を導入する。AIエージェントのRLIにおける性能は最低水準に近く、最高性能のエージェントでも自動化率は2.5%に留まった。これらの結果はAI自動化に関する議論を実証データに基づいて基礎づけ、AIの影響を追跡する共通基盤を設定し、ステークホルダーがAI駆動の労働自動化を先行的にナビゲートすることを可能にする。
English
AIs have made rapid progress on research-oriented benchmarks of knowledge and
reasoning, but it remains unclear how these gains translate into economic value
and automation. To measure this, we introduce the Remote Labor Index (RLI), a
broadly multi-sector benchmark comprising real-world, economically valuable
projects designed to evaluate end-to-end agent performance in practical
settings. AI agents perform near the floor on RLI, with the highest-performing
agent achieving an automation rate of 2.5%. These results help ground
discussions of AI automation in empirical evidence, setting a common basis for
tracking AI impacts and enabling stakeholders to proactively navigate AI-driven
labor automation.