Mesure de la capacité de l'IA à accomplir des tâches longues
Measuring AI Ability to Complete Long Tasks
March 18, 2025
Auteurs: Thomas Kwa, Ben West, Joel Becker, Amy Deng, Katharyn Garcia, Max Hasin, Sami Jawhar, Megan Kinniment, Nate Rush, Sydney Von Arx, Ryan Bloom, Thomas Broadley, Haoxing Du, Brian Goodrich, Nikola Jurkovic, Luke Harold Miles, Seraphina Nix, Tao Lin, Neev Parikh, David Rein, Lucas Jun Koba Sato, Hjalmar Wijk, Daniel M. Ziegler, Elizabeth Barnes, Lawrence Chan
cs.AI
Résumé
Malgré les progrès rapides réalisés sur les benchmarks d'IA, la signification réelle des performances sur ces benchmarks reste incertaine. Pour quantifier les capacités des systèmes d'IA en termes de compétences humaines, nous proposons une nouvelle métrique : l'horizon temporel de réalisation à 50 %. Il s'agit du temps que les humains prennent généralement pour accomplir des tâches que les modèles d'IA peuvent réaliser avec un taux de réussite de 50 %. Nous avons d'abord chronométré des humains possédant une expertise pertinente dans le domaine sur une combinaison de RE-Bench, HCAST et 66 nouvelles tâches plus courtes. Sur ces tâches, les modèles d'IA de pointe actuels, tels que Claude 3.7 Sonnet, ont un horizon temporel de 50 % d'environ 50 minutes. De plus, l'horizon temporel des IA de pointe a doublé environ tous les sept mois depuis 2019, bien que cette tendance semble s'être accélérée en 2024. L'augmentation des horizons temporels des modèles d'IA semble principalement être motivée par une plus grande fiabilité et une meilleure capacité à s'adapter aux erreurs, combinées à de meilleures capacités de raisonnement logique et d'utilisation d'outils. Nous discutons des limites de nos résultats — y compris leur degré de validité externe — et des implications d'une autonomie accrue pour les capacités dangereuses. Si ces résultats se généralisent aux tâches logicielles du monde réel, l'extrapolation de cette tendance prédit que dans cinq ans, les systèmes d'IA seront capables d'automatiser de nombreuses tâches logicielles qui prennent actuellement un mois aux humains.
English
Despite rapid progress on AI benchmarks, the real-world meaning of benchmark
performance remains unclear. To quantify the capabilities of AI systems in
terms of human capabilities, we propose a new metric: 50%-task-completion time
horizon. This is the time humans typically take to complete tasks that AI
models can complete with 50% success rate. We first timed humans with relevant
domain expertise on a combination of RE-Bench, HCAST, and 66 novel shorter
tasks. On these tasks, current frontier AI models such as Claude 3.7 Sonnet
have a 50% time horizon of around 50 minutes. Furthermore, frontier AI time
horizon has been doubling approximately every seven months since 2019, though
the trend may have accelerated in 2024. The increase in AI models' time
horizons seems to be primarily driven by greater reliability and ability to
adapt to mistakes, combined with better logical reasoning and tool use
capabilities. We discuss the limitations of our results -- including their
degree of external validity -- and the implications of increased autonomy for
dangerous capabilities. If these results generalize to real-world software
tasks, extrapolation of this trend predicts that within 5 years, AI systems
will be capable of automating many software tasks that currently take humans a
month.Summary
AI-Generated Summary