Índice de Trabalho Remoto: Medindo a Automação por IA do Trabalho à Distância
Remote Labor Index: Measuring AI Automation of Remote Work
October 30, 2025
Autores: Mantas Mazeika, Alice Gatti, Cristina Menghini, Udari Madhushani Sehwag, Shivam Singhal, Yury Orlovskiy, Steven Basart, Manasi Sharma, Denis Peskoff, Elaine Lau, Jaehyuk Lim, Lachlan Carroll, Alice Blair, Vinaya Sivakumar, Sumana Basu, Brad Kenstler, Yuntao Ma, Julian Michael, Xiaoke Li, Oliver Ingebretsen, Aditya Mehta, Jean Mottola, John Teichmann, Kevin Yu, Zaina Shaik, Adam Khoja, Richard Ren, Jason Hausenloy, Long Phan, Ye Htet, Ankit Aich, Tahseen Rabbani, Vivswan Shah, Andriy Novykov, Felix Binder, Kirill Chugunov, Luis Ramirez, Matias Geralnik, Hernán Mesura, Dean Lee, Ed-Yeremai Hernandez Cardona, Annette Diamond, Summer Yue, Alexandr Wang, Bing Liu, Ernesto Hernandez, Dan Hendrycks
cs.AI
Resumo
As IAs têm feito progressos rápidos em benchmarks de pesquisa sobre conhecimento e raciocínio, mas ainda não está claro como esses ganhos se traduzem em valor econômico e automação. Para medir isso, introduzimos o Índice de Trabalho Remoto (RLI), um benchmark amplamente multissetorial que compreende projetos reais e economicamente valiosos, projetado para avaliar o desempenho de agentes de IA de ponta a ponta em ambientes práticos. Os agentes de IA apresentam desempenho próximo ao mínimo no RLI, com o agente de maior desempenho alcançando uma taxa de automação de 2,5%. Esses resultados ajudam a fundamentar as discussões sobre automação por IA em evidências empíricas, estabelecendo uma base comum para monitorar os impactos da IA e permitindo que as partes interessadas naveguem proativamente pela automação do trabalho impulsionada pela IA.
English
AIs have made rapid progress on research-oriented benchmarks of knowledge and
reasoning, but it remains unclear how these gains translate into economic value
and automation. To measure this, we introduce the Remote Labor Index (RLI), a
broadly multi-sector benchmark comprising real-world, economically valuable
projects designed to evaluate end-to-end agent performance in practical
settings. AI agents perform near the floor on RLI, with the highest-performing
agent achieving an automation rate of 2.5%. These results help ground
discussions of AI automation in empirical evidence, setting a common basis for
tracking AI impacts and enabling stakeholders to proactively navigate AI-driven
labor automation.