SciArena: 과학 문헌 작업을 위한 기초 모델의 개방형 평가 플랫폼
SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks
July 1, 2025
저자: Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
cs.AI
초록
우리는 과학 문헌 작업에서 파운데이션 모델을 평가하기 위한 개방형 협업 플랫폼인 SciArena를 소개합니다. 과학 문헌 이해 및 통합을 위한 기존 벤치마크와 달리, SciArena는 연구 커뮤니티를 직접 참여시켜, Chatbot Arena의 평가 접근 방식인 커뮤니티 투표를 통해 모델 비교를 진행합니다. 집단 지성을 활용함으로써, SciArena는 문헌 기반의 장문 응답을 요구하는 개방형 과학 작업에서 모델 성능에 대한 커뮤니티 주도 평가를 제공합니다. 이 플랫폼은 현재 23개의 오픈소스 및 독점 파운데이션 모델을 지원하며, 다양한 과학 분야의 신뢰할 수 있는 연구자들로부터 13,000건 이상의 투표를 수집했습니다. 우리는 지금까지 수집된 데이터를 분석하여 제출된 질문이 다양하며, 실제 문헌 요구 사항과 일치하고, 참여 연구자들이 평가에서 강력한 자기 일관성과 평가자 간 일치를 보인다는 것을 확인했습니다. 우리는 모델 순위 리더보드를 기반으로 결과와 통찰을 논의합니다. 문헌 작업을 위한 모델 기반 자동 평가 시스템 구축 연구를 더욱 촉진하기 위해, 우리는 수집된 선호도 데이터를 기반으로 한 메타 평가 벤치마크인 SciArena-Eval을 공개합니다. 이 벤치마크는 모델이 인간 투표와 비교하여 답변 품질을 판단하는 정확도를 측정합니다. 우리의 실험은 이 벤치마크의 도전 과제를 강조하며, 더 신뢰할 수 있는 자동 평가 방법의 필요성을 강조합니다.
English
We present SciArena, an open and collaborative platform for evaluating
foundation models on scientific literature tasks. Unlike traditional benchmarks
for scientific literature understanding and synthesis, SciArena engages the
research community directly, following the Chatbot Arena evaluation approach of
community voting on model comparisons. By leveraging collective intelligence,
SciArena offers a community-driven evaluation of model performance on
open-ended scientific tasks that demand literature-grounded, long-form
responses. The platform currently supports 23 open-source and proprietary
foundation models and has collected over 13,000 votes from trusted researchers
across diverse scientific domains. We analyze the data collected so far and
confirm that the submitted questions are diverse, aligned with real-world
literature needs, and that participating researchers demonstrate strong
self-consistency and inter-annotator agreement in their evaluations. We discuss
the results and insights based on the model ranking leaderboard. To further
promote research in building model-based automated evaluation systems for
literature tasks, we release SciArena-Eval, a meta-evaluation benchmark based
on our collected preference data. The benchmark measures the accuracy of models
in judging answer quality by comparing their pairwise assessments with human
votes. Our experiments highlight the benchmark's challenges and emphasize the
need for more reliable automated evaluation methods.