ChatPaper.aiChatPaper

리더보드 환상

The Leaderboard Illusion

April 29, 2025
저자: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI

초록

어떤 과학 분야의 발전에 있어서 진척도를 측정하는 것은 근본적으로 중요합니다. 벤치마크가 점점 더 중심적인 역할을 하게 되면서, 왜곡에 노출될 가능성도 커지고 있습니다. Chatbot Arena는 가장 우수한 AI 시스템을 순위 매기기 위한 주요 리더보드로 자리 잡았습니다. 그러나 본 연구에서 우리는 체계적인 문제를 발견했으며, 이로 인해 왜곡된 경쟁 환경이 조성되었음을 확인했습니다. 우리는 공개 전에 여러 변형을 테스트하고 원할 경우 점수를 철회할 수 있는 소수의 제공업체가 비공개 비밀 테스트 관행으로 이익을 보고 있음을 발견했습니다. 이러한 제공업체들이 최고 점수를 선택할 수 있는 능력은 성능 결과의 선택적 공개로 인해 Arena 점수가 편향되게 만든다는 것을 입증했습니다. 극단적인 사례로, Meta가 Llama-4 출시를 앞두고 테스트한 27개의 비공개 LLM 변형을 확인했습니다. 또한, 독점적인 폐쇄형 모델이 더 높은 비율(배틀 횟수)로 샘플링되며, 오픈 웨이트 및 오픈소스 대안에 비해 Arena에서 제거되는 모델이 더 적다는 것도 입증했습니다. 이러한 정책들은 시간이 지남에 따라 큰 데이터 접근 비대칭을 초래합니다. Google과 OpenAI와 같은 제공업체는 각각 Arena의 전체 데이터 중 약 19.2%와 20.4%를 받은 것으로 추정됩니다. 반면, 83개의 오픈 웨이트 모델을 합쳐도 전체 데이터의 약 29.7%만 받은 것으로 추정됩니다. 우리는 Chatbot Arena 데이터에 접근하는 것이 상당한 이점을 가져다준다는 것을 보여줍니다; 보수적인 추정치에 따르면, 제한된 추가 데이터만으로도 Arena 분포에서 최대 112%의 상대적 성능 향상을 이끌어낼 수 있습니다. 이러한 역학이 함께 작용하여 일반적인 모델 품질보다는 Arena 특정 역학에 과적합되는 결과를 초래합니다. Arena는 이 소중한 평가 플랫폼을 유지하는 주최자와 열린 커뮤니티의 상당한 노력에 기반을 두고 있습니다. 우리는 Chatbot Arena의 평가 프레임워크를 개혁하고, 이 분야에서 더 공정하고 투명한 벤치마킹을 촉진하기 위한 실행 가능한 권고안을 제시합니다.
English
Measuring progress is fundamental to the advancement of any scientific field. As benchmarks play an increasingly central role, they also grow more susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard for ranking the most capable AI systems. Yet, in this work we identify systematic issues that have resulted in a distorted playing field. We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired. We establish that the ability of these providers to choose the best score leads to biased Arena scores due to selective disclosure of performance results. At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release. We also establish that proprietary closed models are sampled at higher rates (number of battles) and have fewer models removed from the arena than open-weight and open-source alternatives. Both these policies lead to large data access asymmetries over time. Providers like Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the arena, respectively. In contrast, a combined 83 open-weight models have only received an estimated 29.7% of the total data. We show that access to Chatbot Arena data yields substantial benefits; even limited additional data can result in relative performance gains of up to 112% on the arena distribution, based on our conservative estimates. Together, these dynamics result in overfitting to Arena-specific dynamics rather than general model quality. The Arena builds on the substantial efforts of both the organizers and an open community that maintains this valuable evaluation platform. We offer actionable recommendations to reform the Chatbot Arena's evaluation framework and promote fairer, more transparent benchmarking for the field

Summary

AI-Generated Summary

PDF191April 30, 2025