立場:AIコンペティションはGenAI評価における経験的厳密性のゴールドスタンダードを提供する
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation
May 1, 2025
著者: D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating
cs.AI
要旨
本ポジションペーパーでは、生成AIにおける実証評価が危機的状況にあることを指摘します。従来の機械学習の評価とベンチマーク戦略は、現代の生成AIモデルやシステムを評価するニーズを満たすには不十分です。その理由は多岐にわたりますが、これらのモデルは通常、ほぼ無制限の入力空間と出力空間を持ち、明確に定義された正解ターゲットが存在せず、また、以前のモデル出力の文脈に基づいて強いフィードバックループと予測依存性を示すことが挙げられます。これらの重要な問題に加えて、我々は、生成AI評価において最も重要かつ困難な課題は、{\em リーク}と{\em 汚染}の問題であると主張します。興味深いことに、AIコンペティションの分野では、競技設定内での悪意ある行為による不正を防ぐために、リークに対抗する効果的な対策と実践が開発されています。これにより、AIコンペティションは特に貴重な(しかし未活用の)リソースとなっています。今こそ、生成AI評価における実証的厳密性のゴールドスタンダードとしてAIコンペティションを位置づけ、その結果を適切な価値を持って活用し、収穫する時です。
English
In this position paper, we observe that empirical evaluation in Generative AI
is at a crisis point since traditional ML evaluation and benchmarking
strategies are insufficient to meet the needs of evaluating modern GenAI models
and systems. There are many reasons for this, including the fact that these
models typically have nearly unbounded input and output spaces, typically do
not have a well defined ground truth target, and typically exhibit strong
feedback loops and prediction dependence based on context of previous model
outputs. On top of these critical issues, we argue that the problems of {\em
leakage} and {\em contamination} are in fact the most important and difficult
issues to address for GenAI evaluations. Interestingly, the field of AI
Competitions has developed effective measures and practices to combat leakage
for the purpose of counteracting cheating by bad actors within a competition
setting. This makes AI Competitions an especially valuable (but underutilized)
resource. Now is time for the field to view AI Competitions as the gold
standard for empirical rigor in GenAI evaluation, and to harness and harvest
their results with according value.Summary
AI-Generated Summary