Position : Les compétitions d'IA établissent la référence absolue en matière de rigueur empirique dans l'évaluation de l'IA générative.
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation
May 1, 2025
Auteurs: D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating
cs.AI
Résumé
Dans ce document de position, nous observons que l'évaluation empirique dans l'IA générative est à un point critique, car les stratégies traditionnelles d'évaluation et de benchmarking en apprentissage automatique sont insuffisantes pour répondre aux besoins d'évaluation des modèles et systèmes modernes d'IA générative. Plusieurs raisons expliquent cela, notamment le fait que ces modèles ont généralement des espaces d'entrée et de sortie quasi illimités, ne possèdent généralement pas de vérité terrain bien définie, et présentent souvent des boucles de rétroaction fortes ainsi qu'une dépendance des prédictions basée sur le contexte des sorties précédentes du modèle. Au-delà de ces problèmes critiques, nous soutenons que les problèmes de {\em fuite} et de {\em contamination} sont en réalité les enjeux les plus importants et les plus difficiles à résoudre pour les évaluations en IA générative. Il est intéressant de noter que le domaine des compétitions d'IA a développé des mesures et des pratiques efficaces pour lutter contre la fuite, dans le but de contrer la triche par des acteurs malveillants dans un cadre compétitif. Cela fait des compétitions d'IA une ressource particulièrement précieuse (mais sous-utilisée). Il est temps pour le domaine de considérer les compétitions d'IA comme la référence en matière de rigueur empirique pour l'évaluation en IA générative, et de valoriser et exploiter leurs résultats en conséquence.
English
In this position paper, we observe that empirical evaluation in Generative AI
is at a crisis point since traditional ML evaluation and benchmarking
strategies are insufficient to meet the needs of evaluating modern GenAI models
and systems. There are many reasons for this, including the fact that these
models typically have nearly unbounded input and output spaces, typically do
not have a well defined ground truth target, and typically exhibit strong
feedback loops and prediction dependence based on context of previous model
outputs. On top of these critical issues, we argue that the problems of {\em
leakage} and {\em contamination} are in fact the most important and difficult
issues to address for GenAI evaluations. Interestingly, the field of AI
Competitions has developed effective measures and practices to combat leakage
for the purpose of counteracting cheating by bad actors within a competition
setting. This makes AI Competitions an especially valuable (but underutilized)
resource. Now is time for the field to view AI Competitions as the gold
standard for empirical rigor in GenAI evaluation, and to harness and harvest
their results with according value.Summary
AI-Generated Summary