Posición: Las Competencias de IA Establecen el Estándar de Oro para el Rigor Empírico en la Evaluación de GenAI
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation
May 1, 2025
Autores: D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating
cs.AI
Resumen
En este documento de posición, observamos que la evaluación empírica en IA Generativa se encuentra en un punto crítico, ya que las estrategias tradicionales de evaluación y comparación en aprendizaje automático son insuficientes para satisfacer las necesidades de evaluar los modelos y sistemas modernos de GenAI. Existen muchas razones para esto, incluyendo el hecho de que estos modelos suelen tener espacios de entrada y salida prácticamente ilimitados, generalmente no poseen un objetivo de verdad fundamental bien definido, y a menudo exhiben fuertes bucles de retroalimentación y dependencia de predicciones basadas en el contexto de salidas previas del modelo. Además de estos problemas críticos, argumentamos que los problemas de {\em filtración} y {\em contaminación} son, de hecho, los más importantes y difíciles de abordar en las evaluaciones de GenAI. Curiosamente, el campo de las Competencias de IA ha desarrollado medidas y prácticas efectivas para combatir la filtración con el propósito de contrarrestar el engaño por parte de actores malintencionados en un entorno competitivo. Esto convierte a las Competencias de IA en un recurso especialmente valioso (pero subutilizado). Es momento de que el campo considere a las Competencias de IA como el estándar de oro para el rigor empírico en la evaluación de GenAI, y de aprovechar y valorar sus resultados en consecuencia.
English
In this position paper, we observe that empirical evaluation in Generative AI
is at a crisis point since traditional ML evaluation and benchmarking
strategies are insufficient to meet the needs of evaluating modern GenAI models
and systems. There are many reasons for this, including the fact that these
models typically have nearly unbounded input and output spaces, typically do
not have a well defined ground truth target, and typically exhibit strong
feedback loops and prediction dependence based on context of previous model
outputs. On top of these critical issues, we argue that the problems of {\em
leakage} and {\em contamination} are in fact the most important and difficult
issues to address for GenAI evaluations. Interestingly, the field of AI
Competitions has developed effective measures and practices to combat leakage
for the purpose of counteracting cheating by bad actors within a competition
setting. This makes AI Competitions an especially valuable (but underutilized)
resource. Now is time for the field to view AI Competitions as the gold
standard for empirical rigor in GenAI evaluation, and to harness and harvest
their results with according value.