ChatPaper.aiChatPaper

AAAR-1.0: Оценка потенциала ИИ в помощи исследованиям

AAAR-1.0: Assessing AI's Potential to Assist Research

October 29, 2024
Авторы: Renze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin
cs.AI

Аннотация

Многочисленные исследования оценили профессионализм систем искусственного интеллекта, в частности, больших языковых моделей (БЯМ), в облегчении повседневных задач, таких как написание электронных писем, ответы на вопросы и генерация творческого контента. Однако исследователи сталкиваются с уникальными вызовами и возможностями в использовании БЯМ для своей работы, таких как генерация идей для исследований, разработка экспериментов и написание или рецензирование статей. В данном исследовании мы представляем AAAR-1.0, набор данных-бенчмарк, разработанный для оценки производительности БЯМ в трех фундаментальных, требующих экспертного уровня задачах исследований: (i) EquationInference, оценка правильности уравнений на основе контекстуальной информации в статьях; (ii) ExperimentDesign, разработка экспериментов для проверки идей и решений исследований; (iii) PaperWeakness, выявление слабых мест в статьях; и (iv) REVIEWCRITIQUE, выявление недостатков в каждом сегменте человеческих рецензий. AAAR-1.0 отличается от предыдущих бенчмарков двумя ключевыми способами: во-первых, он явно ориентирован на исследования, с задачами, требующими глубокой предметной экспертизы; во-вторых, он ориентирован на исследователей, отражая основные деятельности, которыми занимаются исследователи ежедневно. Оценка как открытых, так и закрытых БЯМ показывает их потенциал, а также ограничения в выполнении сложных исследовательских задач. Мы будем продолжать совершенствовать AAAR-1.0 к новым версиям.
English
Numerous studies have assessed the proficiency of AI systems, particularly large language models (LLMs), in facilitating everyday tasks such as email writing, question answering, and creative content generation. However, researchers face unique challenges and opportunities in leveraging LLMs for their own work, such as brainstorming research ideas, designing experiments, and writing or reviewing papers. In this study, we introduce AAAR-1.0, a benchmark dataset designed to evaluate LLM performance in three fundamental, expertise-intensive research tasks: (i) EquationInference, assessing the correctness of equations based on the contextual information in paper submissions; (ii) ExperimentDesign, designing experiments to validate research ideas and solutions; (iii) PaperWeakness, identifying weaknesses in paper submissions; and (iv) REVIEWCRITIQUE, identifying each segment in human reviews is deficient or not. AAAR-1.0 differs from prior benchmarks in two key ways: first, it is explicitly research-oriented, with tasks requiring deep domain expertise; second, it is researcher-oriented, mirroring the primary activities that researchers engage in on a daily basis. An evaluation of both open-source and proprietary LLMs reveals their potential as well as limitations in conducting sophisticated research tasks. We will keep iterating AAAR-1.0 to new versions.

Summary

AI-Generated Summary

PDF163November 13, 2024