ChatPaper.aiChatPaper

SciArena: Uma Plataforma Aberta de Avaliação para Modelos de Base em Tarefas de Literatura Científica

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

July 1, 2025
Autores: Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
cs.AI

Resumo

Apresentamos o SciArena, uma plataforma aberta e colaborativa para avaliar modelos de base em tarefas relacionadas à literatura científica. Diferente dos benchmarks tradicionais para compreensão e síntese de literatura científica, o SciArena envolve diretamente a comunidade de pesquisa, seguindo a abordagem de avaliação do Chatbot Arena, que utiliza votação da comunidade em comparações de modelos. Ao aproveitar a inteligência coletiva, o SciArena oferece uma avaliação comunitária do desempenho dos modelos em tarefas científicas abertas que exigem respostas longas e fundamentadas na literatura. Atualmente, a plataforma suporta 23 modelos de base, tanto de código aberto quanto proprietários, e coletou mais de 13.000 votos de pesquisadores confiáveis em diversas áreas científicas. Analisamos os dados coletados até o momento e confirmamos que as perguntas submetidas são diversas, alinhadas com as necessidades reais da literatura, e que os pesquisadores participantes demonstram forte consistência interna e concordância entre avaliadores em suas avaliações. Discutimos os resultados e insights com base no ranking de modelos. Para promover ainda mais a pesquisa na construção de sistemas automatizados de avaliação baseados em modelos para tarefas de literatura, lançamos o SciArena-Eval, um benchmark de meta-avaliação baseado em nossos dados de preferência coletados. O benchmark mede a precisão dos modelos em julgar a qualidade das respostas, comparando suas avaliações pareadas com os votos humanos. Nossos experimentos destacam os desafios do benchmark e enfatizam a necessidade de métodos automatizados de avaliação mais confiáveis.
English
We present SciArena, an open and collaborative platform for evaluating foundation models on scientific literature tasks. Unlike traditional benchmarks for scientific literature understanding and synthesis, SciArena engages the research community directly, following the Chatbot Arena evaluation approach of community voting on model comparisons. By leveraging collective intelligence, SciArena offers a community-driven evaluation of model performance on open-ended scientific tasks that demand literature-grounded, long-form responses. The platform currently supports 23 open-source and proprietary foundation models and has collected over 13,000 votes from trusted researchers across diverse scientific domains. We analyze the data collected so far and confirm that the submitted questions are diverse, aligned with real-world literature needs, and that participating researchers demonstrate strong self-consistency and inter-annotator agreement in their evaluations. We discuss the results and insights based on the model ranking leaderboard. To further promote research in building model-based automated evaluation systems for literature tasks, we release SciArena-Eval, a meta-evaluation benchmark based on our collected preference data. The benchmark measures the accuracy of models in judging answer quality by comparing their pairwise assessments with human votes. Our experiments highlight the benchmark's challenges and emphasize the need for more reliable automated evaluation methods.
PDF432July 2, 2025