SciArena: Открытая платформа для оценки базовых моделей в задачах обработки научной литературы

Аннотация

Мы представляем SciArena — открытую и совместную платформу для оценки базовых моделей на задачах, связанных с научной литературой. В отличие от традиционных тестов для понимания и синтеза научной литературы, SciArena напрямую вовлекает исследовательское сообщество, следуя подходу Chatbot Arena, где сообщество голосует за сравнение моделей. Используя коллективный интеллект, SciArena предлагает сообществу возможность оценивать производительность моделей на открытых научных задачах, требующих длинных ответов, основанных на литературе. Платформа в настоящее время поддерживает 23 открытые и проприетарные базовые модели и собрала более 13 000 голосов от доверенных исследователей из различных научных областей. Мы анализируем собранные данные и подтверждаем, что заданные вопросы разнообразны, соответствуют реальным потребностям литературы, а участвующие исследователи демонстрируют высокую самосогласованность и согласованность в своих оценках. Мы обсуждаем результаты и выводы на основе рейтинговой таблицы моделей. Чтобы способствовать дальнейшим исследованиям в области создания автоматизированных систем оценки для задач, связанных с литературой, мы выпускаем SciArena-Eval — мета-оценочный тест, основанный на собранных данных о предпочтениях. Этот тест измеряет точность моделей в оценке качества ответов, сравнивая их попарные оценки с голосами людей. Наши эксперименты подчеркивают сложность теста и необходимость в более надежных автоматизированных методах оценки.

English

We present SciArena, an open and collaborative platform for evaluating foundation models on scientific literature tasks. Unlike traditional benchmarks for scientific literature understanding and synthesis, SciArena engages the research community directly, following the Chatbot Arena evaluation approach of community voting on model comparisons. By leveraging collective intelligence, SciArena offers a community-driven evaluation of model performance on open-ended scientific tasks that demand literature-grounded, long-form responses. The platform currently supports 23 open-source and proprietary foundation models and has collected over 13,000 votes from trusted researchers across diverse scientific domains. We analyze the data collected so far and confirm that the submitted questions are diverse, aligned with real-world literature needs, and that participating researchers demonstrate strong self-consistency and inter-annotator agreement in their evaluations. We discuss the results and insights based on the model ranking leaderboard. To further promote research in building model-based automated evaluation systems for literature tasks, we release SciArena-Eval, a meta-evaluation benchmark based on our collected preference data. The benchmark measures the accuracy of models in judging answer quality by comparing their pairwise assessments with human votes. Our experiments highlight the benchmark's challenges and emphasize the need for more reliable automated evaluation methods.

SciArena: Открытая платформа для оценки базовых моделей в задачах обработки научной литературы

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

Аннотация

Support