ChatPaper.aiChatPaper

원격 노동 지수: 원격 근무의 AI 자동화 측정

Remote Labor Index: Measuring AI Automation of Remote Work

October 30, 2025
저자: Mantas Mazeika, Alice Gatti, Cristina Menghini, Udari Madhushani Sehwag, Shivam Singhal, Yury Orlovskiy, Steven Basart, Manasi Sharma, Denis Peskoff, Elaine Lau, Jaehyuk Lim, Lachlan Carroll, Alice Blair, Vinaya Sivakumar, Sumana Basu, Brad Kenstler, Yuntao Ma, Julian Michael, Xiaoke Li, Oliver Ingebretsen, Aditya Mehta, Jean Mottola, John Teichmann, Kevin Yu, Zaina Shaik, Adam Khoja, Richard Ren, Jason Hausenloy, Long Phan, Ye Htet, Ankit Aich, Tahseen Rabbani, Vivswan Shah, Andriy Novykov, Felix Binder, Kirill Chugunov, Luis Ramirez, Matias Geralnik, Hernán Mesura, Dean Lee, Ed-Yeremai Hernandez Cardona, Annette Diamond, Summer Yue, Alexandr Wang, Bing Liu, Ernesto Hernandez, Dan Hendrycks
cs.AI

초록

인공지능은 지식과 추론 관련 연구 중심 벤치마크에서 빠른 진전을 보였으나, 이러한 성과가 경제적 가치와 자동화로 어떻게 전환되는지는 여전히 불분명합니다. 이를 측정하기 위해 우리는 실질적이고 경제적 가치를 지닌 과제들로 구성된 광범위한 다분야 벤치마크인 원격 노동 지수(RLI)를 도입했습니다. 이 지수는 실전 환경에서 엔드투엔드 에이전트 성능을 평가하기 위해 설계되었습니다. AI 에이전트들은 RLI에서 거의 최하위 수준의 성능을 보였으며, 가장 높은 성능을 보인 에이전트의 자동화율은 2.5%에 그쳤습니다. 이러한 결과는 AI 자동화 논의를 경험적 증거에 기반하게 하여 AI 영향 추적을 위한 공통 기준을 마련하고, 이해관계자들이 AI 주도 노동 자동화를 선제적으로 탐색할 수 있도록 합니다.
English
AIs have made rapid progress on research-oriented benchmarks of knowledge and reasoning, but it remains unclear how these gains translate into economic value and automation. To measure this, we introduce the Remote Labor Index (RLI), a broadly multi-sector benchmark comprising real-world, economically valuable projects designed to evaluate end-to-end agent performance in practical settings. AI agents perform near the floor on RLI, with the highest-performing agent achieving an automation rate of 2.5%. These results help ground discussions of AI automation in empirical evidence, setting a common basis for tracking AI impacts and enabling stakeholders to proactively navigate AI-driven labor automation.
PDF51December 2, 2025