ChatPaper.aiChatPaper

OpenScholar: Sintetizando Literatura Científica com LMs Aprimorados por Recuperação

OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

November 21, 2024
Autores: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI

Resumo

O progresso científico depende da capacidade dos pesquisadores de sintetizar o crescente corpo de literatura. Será que modelos de linguagem grandes (LMs) podem auxiliar os cientistas nessa tarefa? Apresentamos o OpenScholar, um LM especializado com recuperação aumentada que responde a consultas científicas identificando trechos relevantes em 45 milhões de artigos de acesso aberto e sintetizando respostas respaldadas por citações. Para avaliar o OpenScholar, desenvolvemos o ScholarQABench, o primeiro benchmark multi-domínio em larga escala para busca de literatura, composto por 2.967 consultas escritas por especialistas e 208 respostas em formato longo abrangendo ciência da computação, física, neurociência e biomedicina. No ScholarQABench, o OpenScholar-8B supera o GPT-4o em 5% e o PaperQA2 em 7% em termos de correção, apesar de ser um modelo menor e aberto. Enquanto o GPT-4o alucina citações de 78 a 90% do tempo, o OpenScholar alcança precisão de citação em nível semelhante a especialistas humanos. O datastore, recuperador e loop de inferência de auto-feedback do OpenScholar também melhora os LMs prontos para uso: por exemplo, o OpenScholar-GPT4o melhora a correção do GPT-4o em 12%. Em avaliações humanas, os especialistas preferiram as respostas do OpenScholar-8B e do OpenScholar-GPT4o em relação às escritas por especialistas 51% e 70% do tempo, respectivamente, em comparação com 32% do GPT-4o. Disponibilizamos todo o nosso código, modelos, datastore, dados e um demo público em código aberto.
English
Scientific progress depends on researchers' ability to synthesize the growing body of literature. Can large language models (LMs) assist scientists in this task? We introduce OpenScholar, a specialized retrieval-augmented LM that answers scientific queries by identifying relevant passages from 45 million open-access papers and synthesizing citation-backed responses. To evaluate OpenScholar, we develop ScholarQABench, the first large-scale multi-domain benchmark for literature search, comprising 2,967 expert-written queries and 208 long-form answers across computer science, physics, neuroscience, and biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o hallucinates citations 78 to 90% of the time, OpenScholar achieves citation accuracy on par with human experts. OpenScholar's datastore, retriever, and self-feedback inference loop also improves off-the-shelf LMs: for instance, OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations, experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's 32%. We open-source all of our code, models, datastore, data and a public demo.

Summary

AI-Generated Summary

PDF322November 22, 2024