ChatPaper.aiChatPaper

SciArena: Een Open Evaluatieplatform voor Fundamentmodellen in Wetenschappelijke Literatuur Taken

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

July 1, 2025
Auteurs: Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
cs.AI

Samenvatting

We presenteren SciArena, een open en collaboratief platform voor het evalueren van foundation models op taken gerelateerd aan wetenschappelijke literatuur. In tegenstelling tot traditionele benchmarks voor het begrijpen en synthetiseren van wetenschappelijke literatuur, betrekt SciArena de onderzoeksgemeenschap rechtstreeks, waarbij de evaluatiebenadering van Chatbot Arena wordt gevolgd door middel van community voting op modelvergelijkingen. Door gebruik te maken van collectieve intelligentie biedt SciArena een gemeenschapsgedreven evaluatie van modelprestaties op open-einde wetenschappelijke taken die literatuurgebaseerde, langere antwoorden vereisen. Het platform ondersteunt momenteel 23 open-source en propriëtaire foundation models en heeft meer dan 13.000 stemmen verzameld van vertrouwde onderzoekers uit diverse wetenschappelijke domeinen. We analyseren de tot nu toe verzamelde data en bevestigen dat de ingediende vragen divers zijn, aansluiten bij real-world literatuurbehoeften, en dat de deelnemende onderzoekers een sterke zelfconsistentie en interannotatorovereenstemming tonen in hun evaluaties. We bespreken de resultaten en inzichten op basis van de modelranking leaderboard. Om verder onderzoek te bevorderen in het bouwen van modelgebaseerde geautomatiseerde evaluatiesystemen voor literatuurtaken, brengen we SciArena-Eval uit, een meta-evaluatiebenchmark gebaseerd op onze verzamelde voorkeursdata. De benchmark meet de nauwkeurigheid van modellen in het beoordelen van antwoordkwaliteit door hun paarsgewijze beoordelingen te vergelijken met menselijke stemmen. Onze experimenten benadrukken de uitdagingen van de benchmark en onderstrepen de noodzaak voor betrouwbaardere geautomatiseerde evaluatiemethoden.
English
We present SciArena, an open and collaborative platform for evaluating foundation models on scientific literature tasks. Unlike traditional benchmarks for scientific literature understanding and synthesis, SciArena engages the research community directly, following the Chatbot Arena evaluation approach of community voting on model comparisons. By leveraging collective intelligence, SciArena offers a community-driven evaluation of model performance on open-ended scientific tasks that demand literature-grounded, long-form responses. The platform currently supports 23 open-source and proprietary foundation models and has collected over 13,000 votes from trusted researchers across diverse scientific domains. We analyze the data collected so far and confirm that the submitted questions are diverse, aligned with real-world literature needs, and that participating researchers demonstrate strong self-consistency and inter-annotator agreement in their evaluations. We discuss the results and insights based on the model ranking leaderboard. To further promote research in building model-based automated evaluation systems for literature tasks, we release SciArena-Eval, a meta-evaluation benchmark based on our collected preference data. The benchmark measures the accuracy of models in judging answer quality by comparing their pairwise assessments with human votes. Our experiments highlight the benchmark's challenges and emphasize the need for more reliable automated evaluation methods.
PDF422July 2, 2025