ChatPaper.aiChatPaper

SciArena: Una Plataforma Abierta de Evaluación para Modelos Fundacionales en Tareas de Literatura Científica

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

July 1, 2025
Autores: Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
cs.AI

Resumen

Presentamos SciArena, una plataforma abierta y colaborativa para evaluar modelos fundacionales en tareas relacionadas con la literatura científica. A diferencia de los benchmarks tradicionales para la comprensión y síntesis de literatura científica, SciArena involucra directamente a la comunidad investigadora, siguiendo el enfoque de evaluación de Chatbot Arena mediante votaciones comunitarias en comparaciones de modelos. Al aprovechar la inteligencia colectiva, SciArena ofrece una evaluación impulsada por la comunidad del rendimiento de los modelos en tareas científicas abiertas que requieren respuestas extensas y fundamentadas en la literatura. La plataforma actualmente admite 23 modelos fundacionales, tanto de código abierto como propietarios, y ha recopilado más de 13,000 votos de investigadores confiables en diversos dominios científicos. Analizamos los datos recopilados hasta ahora y confirmamos que las preguntas enviadas son diversas, están alineadas con las necesidades reales de la literatura y que los investigadores participantes muestran una fuerte autoconsistencia y acuerdo interanotador en sus evaluaciones. Discutimos los resultados y las conclusiones basadas en la tabla de clasificación de modelos. Para fomentar aún más la investigación en la construcción de sistemas automatizados de evaluación basados en modelos para tareas de literatura, lanzamos SciArena-Eval, un benchmark de meta-evaluación basado en nuestros datos de preferencias recopilados. El benchmark mide la precisión de los modelos al juzgar la calidad de las respuestas comparando sus evaluaciones por pares con los votos humanos. Nuestros experimentos resaltan los desafíos del benchmark y enfatizan la necesidad de métodos de evaluación automatizada más confiables.
English
We present SciArena, an open and collaborative platform for evaluating foundation models on scientific literature tasks. Unlike traditional benchmarks for scientific literature understanding and synthesis, SciArena engages the research community directly, following the Chatbot Arena evaluation approach of community voting on model comparisons. By leveraging collective intelligence, SciArena offers a community-driven evaluation of model performance on open-ended scientific tasks that demand literature-grounded, long-form responses. The platform currently supports 23 open-source and proprietary foundation models and has collected over 13,000 votes from trusted researchers across diverse scientific domains. We analyze the data collected so far and confirm that the submitted questions are diverse, aligned with real-world literature needs, and that participating researchers demonstrate strong self-consistency and inter-annotator agreement in their evaluations. We discuss the results and insights based on the model ranking leaderboard. To further promote research in building model-based automated evaluation systems for literature tasks, we release SciArena-Eval, a meta-evaluation benchmark based on our collected preference data. The benchmark measures the accuracy of models in judging answer quality by comparing their pairwise assessments with human votes. Our experiments highlight the benchmark's challenges and emphasize the need for more reliable automated evaluation methods.
PDF352July 2, 2025