포지션: AI 경연대회는 GenAI 평가에서 경험적 엄격성의 금본위를 제공한다
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation
May 1, 2025
저자: D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating
cs.AI
초록
본 포지션 페이퍼에서 우리는 생성형 AI(Generative AI)의 실증적 평가가 위기점에 도달했음을 지적합니다. 이는 전통적인 머신러닝 평가 및 벤치마킹 전략이 현대의 생성형 AI 모델과 시스템을 평가하는 데 필요한 요구를 충족시키기에 부족하기 때문입니다. 이러한 문제는 여러 가지 이유에서 발생하는데, 이 모델들이 일반적으로 거의 무한한 입력 및 출력 공간을 가지고 있고, 명확하게 정의된 기준 진실값(ground truth)이 없으며, 이전 모델 출력의 문맥에 기반한 강력한 피드백 루프와 예측 의존성을 보이기 때문입니다. 이러한 중요한 문제들 외에도, 우리는 생성형 AI 평가에서 가장 중요하고 해결하기 어려운 문제가 바로 '누출(leakage)'과 '오염(contamination)'이라고 주장합니다. 흥미롭게도, AI 경진대회(AI Competitions) 분야에서는 경쟁 환경 내에서 불량 행위자의 부정행위를 방지하기 위해 누출을 막는 효과적인 조치와 관행이 개발되었습니다. 이는 AI 경진대회를 특히 가치 있는(그러나 아직 충분히 활용되지 않은) 자원으로 만듭니다. 이제는 생성형 AI 평가에서 실증적 엄격성의 금본위제(gold standard)로서 AI 경진대회를 바라보고, 그 결과를 적절한 가치를 부여하여 활용할 때입니다.
English
In this position paper, we observe that empirical evaluation in Generative AI
is at a crisis point since traditional ML evaluation and benchmarking
strategies are insufficient to meet the needs of evaluating modern GenAI models
and systems. There are many reasons for this, including the fact that these
models typically have nearly unbounded input and output spaces, typically do
not have a well defined ground truth target, and typically exhibit strong
feedback loops and prediction dependence based on context of previous model
outputs. On top of these critical issues, we argue that the problems of {\em
leakage} and {\em contamination} are in fact the most important and difficult
issues to address for GenAI evaluations. Interestingly, the field of AI
Competitions has developed effective measures and practices to combat leakage
for the purpose of counteracting cheating by bad actors within a competition
setting. This makes AI Competitions an especially valuable (but underutilized)
resource. Now is time for the field to view AI Competitions as the gold
standard for empirical rigor in GenAI evaluation, and to harness and harvest
their results with according value.Summary
AI-Generated Summary