ChatPaper.aiChatPaper

OpenScholar: Sintetizando la literatura científica con LMs mejorados con recuperación

OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

November 21, 2024
Autores: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI

Resumen

El progreso científico depende de la capacidad de los investigadores para sintetizar el creciente cuerpo de literatura. ¿Pueden los grandes modelos de lenguaje (LMs) ayudar a los científicos en esta tarea? Presentamos OpenScholar, un LM especializado con recuperación aumentada que responde a consultas científicas identificando pasajes relevantes de 45 millones de artículos de acceso abierto y sintetizando respuestas respaldadas por citas. Para evaluar OpenScholar, desarrollamos ScholarQABench, el primer banco de pruebas multi-dominio a gran escala para búsqueda de literatura, que consta de 2,967 consultas escritas por expertos y 208 respuestas extensas en informática, física, neurociencia y biomedicina. En ScholarQABench, OpenScholar-8B supera a GPT-4o en un 5% y a PaperQA2 en un 7% en corrección, a pesar de ser un modelo más pequeño y abierto. Mientras que GPT-4o alucina citas entre el 78 y el 90% del tiempo, OpenScholar logra una precisión de citas comparable a la de expertos humanos. La base de datos, el recuperador y el bucle de inferencia de auto-retroalimentación de OpenScholar también mejoran los LMs listos para usar: por ejemplo, OpenScholar-GPT4o mejora la corrección de GPT-4o en un 12%. En evaluaciones humanas, los expertos prefirieron las respuestas de OpenScholar-8B y OpenScholar-GPT4o sobre las escritas por expertos el 51% y el 70% del tiempo, respectivamente, en comparación con el 32% de GPT-4o. Ponemos a disposición de todos nuestro código, modelos, base de datos, datos y una demostración pública.
English
Scientific progress depends on researchers' ability to synthesize the growing body of literature. Can large language models (LMs) assist scientists in this task? We introduce OpenScholar, a specialized retrieval-augmented LM that answers scientific queries by identifying relevant passages from 45 million open-access papers and synthesizing citation-backed responses. To evaluate OpenScholar, we develop ScholarQABench, the first large-scale multi-domain benchmark for literature search, comprising 2,967 expert-written queries and 208 long-form answers across computer science, physics, neuroscience, and biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o hallucinates citations 78 to 90% of the time, OpenScholar achieves citation accuracy on par with human experts. OpenScholar's datastore, retriever, and self-feedback inference loop also improves off-the-shelf LMs: for instance, OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations, experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's 32%. We open-source all of our code, models, datastore, data and a public demo.

Summary

AI-Generated Summary

PDF322November 22, 2024