ChatPaper.aiChatPaper

OpenScholar: 情報検索強化型LMを用いた科学文献の総合

OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

November 21, 2024
著者: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI

要旨

科学の進歩は、研究者が増え続ける文献を統合する能力に依存しています。大規模言語モデル(LMs)は、科学者がこのタスクを支援することができるでしょうか?私たちは、OpenScholarという専門の検索拡張LMを紹介します。このモデルは、4500万のオープンアクセス論文から関連する箇所を特定し、引用に基づいた回答を合成することで科学的なクエリに回答します。OpenScholarを評価するために、文献検索のための初の大規模マルチドメインベンチマークであるScholarQABenchを開発しました。このベンチマークには、コンピュータサイエンス、物理学、神経科学、および生物医学の分野にわたる2967の専門家によるクエリと208の長文回答が含まれています。ScholarQABenchにおいて、OpenScholar-8Bは、GPT-4oよりも5%、PaperQA2よりも7%の正確さで優れています。GPT-4oは78〜90%の割合で引用を幻視しますが、OpenScholarは人間の専門家と同等の引用の正確さを達成しています。OpenScholarのデータストア、リトリーバー、および自己フィードバック推論ループは、オフザシェルフのLMを改善します。例えば、OpenScholar-GPT4oはGPT-4oの正確さを12%向上させます。人間の評価では、専門家はOpenScholar-8BおよびOpenScholar-GPT4oの回答を、GPT4oの32%に比べてそれぞれ51%および70%の割合で専門家による回答よりも好みました。私たちは、すべてのコード、モデル、データストア、データ、およびパブリックデモをオープンソース化しています。
English
Scientific progress depends on researchers' ability to synthesize the growing body of literature. Can large language models (LMs) assist scientists in this task? We introduce OpenScholar, a specialized retrieval-augmented LM that answers scientific queries by identifying relevant passages from 45 million open-access papers and synthesizing citation-backed responses. To evaluate OpenScholar, we develop ScholarQABench, the first large-scale multi-domain benchmark for literature search, comprising 2,967 expert-written queries and 208 long-form answers across computer science, physics, neuroscience, and biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o hallucinates citations 78 to 90% of the time, OpenScholar achieves citation accuracy on par with human experts. OpenScholar's datastore, retriever, and self-feedback inference loop also improves off-the-shelf LMs: for instance, OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations, experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's 32%. We open-source all of our code, models, datastore, data and a public demo.
PDF322November 22, 2024