ChatPaper.aiChatPaper

AAAR-1.0: Avaliando o Potencial da IA para Auxiliar na Pesquisa

AAAR-1.0: Assessing AI's Potential to Assist Research

October 29, 2024
Autores: Renze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin
cs.AI

Resumo

Inúmeros estudos têm avaliado a proficiência de sistemas de IA, especialmente grandes modelos de linguagem (LLMs), em facilitar tarefas cotidianas como escrever e-mails, responder a perguntas e gerar conteúdo criativo. No entanto, os pesquisadores enfrentam desafios e oportunidades únicas ao aproveitar os LLMs para seus próprios trabalhos, como brainstorming de ideias de pesquisa, design de experimentos e escrita ou revisão de artigos. Neste estudo, apresentamos o AAAR-1.0, um conjunto de dados de referência projetado para avaliar o desempenho dos LLMs em três tarefas fundamentais e intensivas em expertise de pesquisa: (i) Inferência de Equações, avaliando a correção de equações com base nas informações contextuais em submissões de artigos; (ii) Design de Experimentos, projetando experimentos para validar ideias e soluções de pesquisa; (iii) Fraquezas de Artigos, identificando fraquezas em submissões de artigos; e (iv) REVISÃOCRÍTICA, identificando se cada segmento em revisões humanas é deficiente ou não. O AAAR-1.0 difere de conjuntos de dados de referência anteriores de duas maneiras principais: primeiro, é explicitamente orientado para pesquisa, com tarefas que exigem profunda expertise de domínio; segundo, é orientado para pesquisadores, refletindo as atividades principais com as quais os pesquisadores se envolvem diariamente. Uma avaliação de LLMs de código aberto e proprietários revela seu potencial, bem como limitações, na realização de tarefas de pesquisa sofisticadas. Continuaremos iterando o AAAR-1.0 para novas versões.
English
Numerous studies have assessed the proficiency of AI systems, particularly large language models (LLMs), in facilitating everyday tasks such as email writing, question answering, and creative content generation. However, researchers face unique challenges and opportunities in leveraging LLMs for their own work, such as brainstorming research ideas, designing experiments, and writing or reviewing papers. In this study, we introduce AAAR-1.0, a benchmark dataset designed to evaluate LLM performance in three fundamental, expertise-intensive research tasks: (i) EquationInference, assessing the correctness of equations based on the contextual information in paper submissions; (ii) ExperimentDesign, designing experiments to validate research ideas and solutions; (iii) PaperWeakness, identifying weaknesses in paper submissions; and (iv) REVIEWCRITIQUE, identifying each segment in human reviews is deficient or not. AAAR-1.0 differs from prior benchmarks in two key ways: first, it is explicitly research-oriented, with tasks requiring deep domain expertise; second, it is researcher-oriented, mirroring the primary activities that researchers engage in on a daily basis. An evaluation of both open-source and proprietary LLMs reveals their potential as well as limitations in conducting sophisticated research tasks. We will keep iterating AAAR-1.0 to new versions.

Summary

AI-Generated Summary

PDF163November 13, 2024