ChatPaper.aiChatPaper

SciArena: Eine offene Evaluierungsplattform für Foundation Models in Aufgaben der wissenschaftlichen Literatur

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

July 1, 2025
Autoren: Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
cs.AI

Zusammenfassung

Wir präsentieren SciArena, eine offene und kollaborative Plattform zur Bewertung von Foundation-Modellen für Aufgaben im Bereich der wissenschaftlichen Literatur. Im Gegensatz zu traditionellen Benchmarks für das Verständnis und die Synthese wissenschaftlicher Literatur bindet SciArena die Forschungsgemeinschaft direkt ein, indem es dem Chatbot-Arena-Ansatz der Community-Abstimmung über Modellvergleiche folgt. Durch die Nutzung kollektiver Intelligenz bietet SciArena eine gemeinschaftsgesteuerte Bewertung der Modellleistung bei offenen wissenschaftlichen Aufgaben, die literaturgestützte, langformulierte Antworten erfordern. Die Plattform unterstützt derzeit 23 Open-Source- und proprietäre Foundation-Modelle und hat über 13.000 Stimmen von vertrauenswürdigen Forschern aus verschiedenen wissenschaftlichen Domänen gesammelt. Wir analysieren die bisher gesammelten Daten und bestätigen, dass die eingereichten Fragen vielfältig sind, sich an den realen Anforderungen der Literatur orientieren und dass die teilnehmenden Forscher eine starke Selbstkonsistenz und Inter-Annotator-Übereinstimmung in ihren Bewertungen zeigen. Wir diskutieren die Ergebnisse und Erkenntnisse basierend auf der Modell-Rangliste. Um die Forschung zur Entwicklung modellbasierter automatisierter Bewertungssysteme für Literaturaufgaben weiter voranzutreiben, veröffentlichen wir SciArena-Eval, einen Meta-Bewertungs-Benchmark, der auf unseren gesammelten Präferenzdaten basiert. Der Benchmark misst die Genauigkeit von Modellen bei der Beurteilung der Antwortqualität, indem er ihre paarweisen Bewertungen mit menschlichen Stimmen vergleicht. Unsere Experimente verdeutlichen die Herausforderungen des Benchmarks und betonen die Notwendigkeit zuverlässigerer automatisierter Bewertungsmethoden.
English
We present SciArena, an open and collaborative platform for evaluating foundation models on scientific literature tasks. Unlike traditional benchmarks for scientific literature understanding and synthesis, SciArena engages the research community directly, following the Chatbot Arena evaluation approach of community voting on model comparisons. By leveraging collective intelligence, SciArena offers a community-driven evaluation of model performance on open-ended scientific tasks that demand literature-grounded, long-form responses. The platform currently supports 23 open-source and proprietary foundation models and has collected over 13,000 votes from trusted researchers across diverse scientific domains. We analyze the data collected so far and confirm that the submitted questions are diverse, aligned with real-world literature needs, and that participating researchers demonstrate strong self-consistency and inter-annotator agreement in their evaluations. We discuss the results and insights based on the model ranking leaderboard. To further promote research in building model-based automated evaluation systems for literature tasks, we release SciArena-Eval, a meta-evaluation benchmark based on our collected preference data. The benchmark measures the accuracy of models in judging answer quality by comparing their pairwise assessments with human votes. Our experiments highlight the benchmark's challenges and emphasize the need for more reliable automated evaluation methods.
PDF352July 2, 2025