OpenScholar: Синтез научной литературы с помощью моделей языка с усилением поиска

Аннотация

Научный прогресс зависит от способности исследователей синтезировать растущий объем литературы. Могут ли большие языковые модели (LM) помочь ученым в этой задаче? Мы представляем OpenScholar, специализированную модель с извлечением информации, которая отвечает на научные запросы, идентифицируя соответствующие отрывки из 45 миллионов научных статей с открытым доступом и синтезируя ответы с ссылками на цитирование. Для оценки OpenScholar мы разработали ScholarQABench, первый крупномасштабный многодоменный набор данных для поиска литературы, включающий 2 967 запросов, написанных экспертами, и 208 развернутых ответов в областях информатики, физики, нейронауки и биомедицины. На наборе данных ScholarQABench OpenScholar-8B превосходит GPT-4o на 5% и PaperQA2 на 7% по правильности, несмотря на то, что является более маленькой открытой моделью. В то время как GPT-4o галлюцинирует цитаты в 78-90% случаев, OpenScholar достигает точности цитирования на уровне человеческих экспертов. Хранилище данных, извлекатель и цикл вывода с обратной связью также улучшают стандартные языковые модели: например, OpenScholar-GPT4o повышает правильность GPT-4o на 12%. В ходе оценки экспертов предпочли ответы OpenScholar-8B и OpenScholar-GPT4o экспертно написанным в 51% и 70% случаев соответственно, по сравнению с 32% у GPT-4o. Мы открываем исходный код, модели, хранилище данных, данные и публичное демо.

English

Scientific progress depends on researchers' ability to synthesize the growing body of literature. Can large language models (LMs) assist scientists in this task? We introduce OpenScholar, a specialized retrieval-augmented LM that answers scientific queries by identifying relevant passages from 45 million open-access papers and synthesizing citation-backed responses. To evaluate OpenScholar, we develop ScholarQABench, the first large-scale multi-domain benchmark for literature search, comprising 2,967 expert-written queries and 208 long-form answers across computer science, physics, neuroscience, and biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o hallucinates citations 78 to 90% of the time, OpenScholar achieves citation accuracy on par with human experts. OpenScholar's datastore, retriever, and self-feedback inference loop also improves off-the-shelf LMs: for instance, OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations, experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's 32%. We open-source all of our code, models, datastore, data and a public demo.

OpenScholar: Синтез научной литературы с помощью моделей языка с усилением поиска

OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

Аннотация

Support