ChatPaper.aiChatPaper

Indice de Travail à Distance : Mesurer l'Automatisation des Tâches à Distance par l'IA

Remote Labor Index: Measuring AI Automation of Remote Work

October 30, 2025
papers.authors: Mantas Mazeika, Alice Gatti, Cristina Menghini, Udari Madhushani Sehwag, Shivam Singhal, Yury Orlovskiy, Steven Basart, Manasi Sharma, Denis Peskoff, Elaine Lau, Jaehyuk Lim, Lachlan Carroll, Alice Blair, Vinaya Sivakumar, Sumana Basu, Brad Kenstler, Yuntao Ma, Julian Michael, Xiaoke Li, Oliver Ingebretsen, Aditya Mehta, Jean Mottola, John Teichmann, Kevin Yu, Zaina Shaik, Adam Khoja, Richard Ren, Jason Hausenloy, Long Phan, Ye Htet, Ankit Aich, Tahseen Rabbani, Vivswan Shah, Andriy Novykov, Felix Binder, Kirill Chugunov, Luis Ramirez, Matias Geralnik, Hernán Mesura, Dean Lee, Ed-Yeremai Hernandez Cardona, Annette Diamond, Summer Yue, Alexandr Wang, Bing Liu, Ernesto Hernandez, Dan Hendrycks
cs.AI

papers.abstract

Les IA ont réalisé des progrès rapides sur les benchmarks de recherche en matière de connaissances et de raisonnement, mais la manière dont ces avancées se traduisent en valeur économique et en automatisation reste incertaine. Pour mesurer cela, nous introduisons l'Indice de Travail à Distance (ITD), un benchmark multisectoriel complet comprenant des projets réels à valeur économique, conçu pour évaluer la performance des agents de bout en bout dans des contextes pratiques. Les agents d'IA obtiennent des résultats proches du plancher sur l'ITD, l'agent le plus performant atteignant un taux d'automatisation de 2,5%. Ces résultats permettent d'ancrer les discussions sur l'automatisation par l'IA dans des preuves empiriques, établissant une base commune pour suivre les impacts de l'IA et permettant aux parties prenantes de naviguer de manière proactive dans l'automatisation du travail pilotée par l'IA.
English
AIs have made rapid progress on research-oriented benchmarks of knowledge and reasoning, but it remains unclear how these gains translate into economic value and automation. To measure this, we introduce the Remote Labor Index (RLI), a broadly multi-sector benchmark comprising real-world, economically valuable projects designed to evaluate end-to-end agent performance in practical settings. AI agents perform near the floor on RLI, with the highest-performing agent achieving an automation rate of 2.5%. These results help ground discussions of AI automation in empirical evidence, setting a common basis for tracking AI impacts and enabling stakeholders to proactively navigate AI-driven labor automation.
PDF51December 2, 2025