ChatPaper.aiChatPaper

SciArena: Una Piattaforma Aperta di Valutazione per Modelli di Base nei Compiti di Letteratura Scientifica

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

July 1, 2025
Autori: Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
cs.AI

Abstract

Presentiamo SciArena, una piattaforma aperta e collaborativa per la valutazione di modelli di fondazione su compiti legati alla letteratura scientifica. A differenza dei benchmark tradizionali per la comprensione e la sintesi della letteratura scientifica, SciArena coinvolge direttamente la comunità di ricerca, seguendo l'approccio di valutazione di Chatbot Arena basato sul voto della comunità sui confronti tra modelli. Sfruttando l'intelligenza collettiva, SciArena offre una valutazione guidata dalla comunità delle prestazioni dei modelli su compiti scientifici aperti che richiedono risposte lunghe e basate sulla letteratura. La piattaforma attualmente supporta 23 modelli di fondazione open-source e proprietari e ha raccolto oltre 13.000 voti da ricercatori fidati in diversi ambiti scientifici. Analizziamo i dati raccolti finora e confermiamo che le domande sottoposte sono varie, allineate con le esigenze reali della letteratura, e che i ricercatori partecipanti dimostrano una forte coerenza interna e accordo inter-annotatore nelle loro valutazioni. Discutiamo i risultati e le intuizioni basate sulla classifica dei modelli. Per promuovere ulteriormente la ricerca nello sviluppo di sistemi di valutazione automatizzati basati su modelli per compiti legati alla letteratura, rilasciamo SciArena-Eval, un benchmark di meta-valutazione basato sui dati di preferenza raccolti. Il benchmark misura l'accuratezza dei modelli nel giudicare la qualità delle risposte confrontando le loro valutazioni a coppie con i voti umani. I nostri esperimenti evidenziano le sfide del benchmark e sottolineano la necessità di metodi di valutazione automatizzati più affidabili.
English
We present SciArena, an open and collaborative platform for evaluating foundation models on scientific literature tasks. Unlike traditional benchmarks for scientific literature understanding and synthesis, SciArena engages the research community directly, following the Chatbot Arena evaluation approach of community voting on model comparisons. By leveraging collective intelligence, SciArena offers a community-driven evaluation of model performance on open-ended scientific tasks that demand literature-grounded, long-form responses. The platform currently supports 23 open-source and proprietary foundation models and has collected over 13,000 votes from trusted researchers across diverse scientific domains. We analyze the data collected so far and confirm that the submitted questions are diverse, aligned with real-world literature needs, and that participating researchers demonstrate strong self-consistency and inter-annotator agreement in their evaluations. We discuss the results and insights based on the model ranking leaderboard. To further promote research in building model-based automated evaluation systems for literature tasks, we release SciArena-Eval, a meta-evaluation benchmark based on our collected preference data. The benchmark measures the accuracy of models in judging answer quality by comparing their pairwise assessments with human votes. Our experiments highlight the benchmark's challenges and emphasize the need for more reliable automated evaluation methods.
PDF412July 2, 2025