Индекс удаленного труда: измерение автоматизации удаленной работы с помощью искусственного интеллекта
Remote Labor Index: Measuring AI Automation of Remote Work
October 30, 2025
Авторы: Mantas Mazeika, Alice Gatti, Cristina Menghini, Udari Madhushani Sehwag, Shivam Singhal, Yury Orlovskiy, Steven Basart, Manasi Sharma, Denis Peskoff, Elaine Lau, Jaehyuk Lim, Lachlan Carroll, Alice Blair, Vinaya Sivakumar, Sumana Basu, Brad Kenstler, Yuntao Ma, Julian Michael, Xiaoke Li, Oliver Ingebretsen, Aditya Mehta, Jean Mottola, John Teichmann, Kevin Yu, Zaina Shaik, Adam Khoja, Richard Ren, Jason Hausenloy, Long Phan, Ye Htet, Ankit Aich, Tahseen Rabbani, Vivswan Shah, Andriy Novykov, Felix Binder, Kirill Chugunov, Luis Ramirez, Matias Geralnik, Hernán Mesura, Dean Lee, Ed-Yeremai Hernandez Cardona, Annette Diamond, Summer Yue, Alexandr Wang, Bing Liu, Ernesto Hernandez, Dan Hendrycks
cs.AI
Аннотация
Искусственный интеллект демонстрирует быстрый прогресс в решении исследовательских тестов на знания и логику, однако остаётся неясным, как эти достижения трансформируются в экономическую ценность и автоматизацию. Для оценки этого мы представляем Индекс удалённого труда (RLI) — широкий межотраслевой тест, состоящий из реальных экономически значимых проектов, предназначенных для оценки сквозной производительности агентов в практических условиях. ИИ-агенты показывают результаты близкие к минимальным на RLI, при этом наиболее эффективный агент достиг уровня автоматизации в 2,5%. Эти результаты позволяют обосновать дискуссии об автоматизации с помощью ИИ эмпирическими данными, создавая общую основу для отслеживания воздействия ИИ и давая заинтересованным сторонам возможность proactively управлять автоматизацией труда на основе ИИ.
English
AIs have made rapid progress on research-oriented benchmarks of knowledge and
reasoning, but it remains unclear how these gains translate into economic value
and automation. To measure this, we introduce the Remote Labor Index (RLI), a
broadly multi-sector benchmark comprising real-world, economically valuable
projects designed to evaluate end-to-end agent performance in practical
settings. AI agents perform near the floor on RLI, with the highest-performing
agent achieving an automation rate of 2.5%. These results help ground
discussions of AI automation in empirical evidence, setting a common basis for
tracking AI impacts and enabling stakeholders to proactively navigate AI-driven
labor automation.