AAAR-1.0: Evaluación del Potencial de la IA para Asistir en la Investigación
AAAR-1.0: Assessing AI's Potential to Assist Research
October 29, 2024
Autores: Renze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin
cs.AI
Resumen
Numerosos estudios han evaluado la competencia de los sistemas de IA, en particular los modelos de lenguaje grandes (LLMs), en facilitar tareas cotidianas como la escritura de correos electrónicos, la respuesta a preguntas y la generación de contenido creativo. Sin embargo, los investigadores enfrentan desafíos y oportunidades únicas al aprovechar los LLMs para su propio trabajo, como la generación de ideas de investigación, el diseño de experimentos y la escritura o revisión de documentos. En este estudio, presentamos AAAR-1.0, un conjunto de datos de referencia diseñado para evaluar el rendimiento de los LLMs en tres tareas de investigación fundamentales y intensivas en experiencia: (i) Inferencia de Ecuaciones, evaluando la corrección de ecuaciones basadas en la información contextual en las presentaciones de documentos; (ii) Diseño de Experimentos, diseñando experimentos para validar ideas y soluciones de investigación; (iii) Debilidades en Documentos, identificando debilidades en las presentaciones de documentos; y (iv) CRÍTICA DE REVISIÓN, identificando si cada segmento en las revisiones humanas es deficiente o no. AAAR-1.0 difiere de conjuntos de datos de referencia anteriores en dos aspectos clave: primero, está explícitamente orientado a la investigación, con tareas que requieren un profundo conocimiento del dominio; segundo, está orientado a los investigadores, reflejando las actividades principales en las que los investigadores participan a diario. Una evaluación tanto de LLMs de código abierto como propietarios revela su potencial, así como limitaciones, en la realización de tareas de investigación sofisticadas. Continuaremos iterando AAAR-1.0 hacia nuevas versiones.
English
Numerous studies have assessed the proficiency of AI systems, particularly
large language models (LLMs), in facilitating everyday tasks such as email
writing, question answering, and creative content generation. However,
researchers face unique challenges and opportunities in leveraging LLMs for
their own work, such as brainstorming research ideas, designing experiments,
and writing or reviewing papers. In this study, we introduce AAAR-1.0, a
benchmark dataset designed to evaluate LLM performance in three fundamental,
expertise-intensive research tasks: (i) EquationInference, assessing the
correctness of equations based on the contextual information in paper
submissions; (ii) ExperimentDesign, designing experiments to validate research
ideas and solutions; (iii) PaperWeakness, identifying weaknesses in paper
submissions; and (iv) REVIEWCRITIQUE, identifying each segment in human reviews
is deficient or not. AAAR-1.0 differs from prior benchmarks in two key ways:
first, it is explicitly research-oriented, with tasks requiring deep domain
expertise; second, it is researcher-oriented, mirroring the primary activities
that researchers engage in on a daily basis. An evaluation of both open-source
and proprietary LLMs reveals their potential as well as limitations in
conducting sophisticated research tasks. We will keep iterating AAAR-1.0 to new
versions.Summary
AI-Generated Summary