ChatPaper.aiChatPaper

SciArena : Une plateforme ouverte d'évaluation pour les modèles de fondation dans les tâches de littérature scientifique

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

July 1, 2025
Auteurs: Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
cs.AI

Résumé

Nous présentons SciArena, une plateforme ouverte et collaborative pour l'évaluation des modèles de fondation sur des tâches liées à la littérature scientifique. Contrairement aux benchmarks traditionnels pour la compréhension et la synthèse de la littérature scientifique, SciArena implique directement la communauté de recherche, suivant l'approche d'évaluation de Chatbot Arena basée sur le vote communautaire pour les comparaisons de modèles. En tirant parti de l'intelligence collective, SciArena propose une évaluation communautaire des performances des modèles sur des tâches scientifiques ouvertes qui nécessitent des réponses longues et fondées sur la littérature. La plateforme prend actuellement en charge 23 modèles de fondation open-source et propriétaires et a recueilli plus de 13 000 votes de chercheurs de confiance issus de divers domaines scientifiques. Nous analysons les données collectées jusqu'à présent et confirmons que les questions soumises sont diversifiées, alignées sur les besoins réels de la littérature, et que les chercheurs participants démontrent une forte cohérence interne et un bon accord inter-annotateurs dans leurs évaluations. Nous discutons des résultats et des insights basés sur le classement des modèles. Pour promouvoir davantage la recherche sur la construction de systèmes d'évaluation automatisés basés sur des modèles pour les tâches de littérature, nous publions SciArena-Eval, un benchmark de méta-évaluation basé sur nos données de préférence collectées. Ce benchmark mesure la précision des modèles à juger la qualité des réponses en comparant leurs évaluations par paires avec les votes humains. Nos expériences mettent en lumière les défis du benchmark et soulignent la nécessité de méthodes d'évaluation automatisées plus fiables.
English
We present SciArena, an open and collaborative platform for evaluating foundation models on scientific literature tasks. Unlike traditional benchmarks for scientific literature understanding and synthesis, SciArena engages the research community directly, following the Chatbot Arena evaluation approach of community voting on model comparisons. By leveraging collective intelligence, SciArena offers a community-driven evaluation of model performance on open-ended scientific tasks that demand literature-grounded, long-form responses. The platform currently supports 23 open-source and proprietary foundation models and has collected over 13,000 votes from trusted researchers across diverse scientific domains. We analyze the data collected so far and confirm that the submitted questions are diverse, aligned with real-world literature needs, and that participating researchers demonstrate strong self-consistency and inter-annotator agreement in their evaluations. We discuss the results and insights based on the model ranking leaderboard. To further promote research in building model-based automated evaluation systems for literature tasks, we release SciArena-Eval, a meta-evaluation benchmark based on our collected preference data. The benchmark measures the accuracy of models in judging answer quality by comparing their pairwise assessments with human votes. Our experiments highlight the benchmark's challenges and emphasize the need for more reliable automated evaluation methods.
PDF352July 2, 2025