Position : Les compétitions d'IA établissent la référence absolue en matière de rigueur empirique dans l'évaluation de l'IA générative.

Résumé

Dans ce document de position, nous observons que l'évaluation empirique dans l'IA générative est à un point critique, car les stratégies traditionnelles d'évaluation et de benchmarking en apprentissage automatique sont insuffisantes pour répondre aux besoins d'évaluation des modèles et systèmes modernes d'IA générative. Plusieurs raisons expliquent cela, notamment le fait que ces modèles ont généralement des espaces d'entrée et de sortie quasi illimités, ne possèdent généralement pas de vérité terrain bien définie, et présentent souvent des boucles de rétroaction fortes ainsi qu'une dépendance des prédictions basée sur le contexte des sorties précédentes du modèle. Au-delà de ces problèmes critiques, nous soutenons que les problèmes de {\em fuite} et de {\em contamination} sont en réalité les enjeux les plus importants et les plus difficiles à résoudre pour les évaluations en IA générative. Il est intéressant de noter que le domaine des compétitions d'IA a développé des mesures et des pratiques efficaces pour lutter contre la fuite, dans le but de contrer la triche par des acteurs malveillants dans un cadre compétitif. Cela fait des compétitions d'IA une ressource particulièrement précieuse (mais sous-utilisée). Il est temps pour le domaine de considérer les compétitions d'IA comme la référence en matière de rigueur empirique pour l'évaluation en IA générative, et de valoriser et exploiter leurs résultats en conséquence.

English

In this position paper, we observe that empirical evaluation in Generative AI is at a crisis point since traditional ML evaluation and benchmarking strategies are insufficient to meet the needs of evaluating modern GenAI models and systems. There are many reasons for this, including the fact that these models typically have nearly unbounded input and output spaces, typically do not have a well defined ground truth target, and typically exhibit strong feedback loops and prediction dependence based on context of previous model outputs. On top of these critical issues, we argue that the problems of {\em leakage} and {\em contamination} are in fact the most important and difficult issues to address for GenAI evaluations. Interestingly, the field of AI Competitions has developed effective measures and practices to combat leakage for the purpose of counteracting cheating by bad actors within a competition setting. This makes AI Competitions an especially valuable (but underutilized) resource. Now is time for the field to view AI Competitions as the gold standard for empirical rigor in GenAI evaluation, and to harness and harvest their results with according value.

Position : Les compétitions d'IA établissent la référence absolue en matière de rigueur empirique dans l'évaluation de l'IA générative.

Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

Résumé

Support