大規模言語モデルが科学的発見に与える影響:GPT-4を用いた予備的研究
The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4
November 13, 2023
著者: Microsoft Research AI4Science, Microsoft Azure Quantum
cs.AI
要旨
近年、自然言語処理分野における画期的な進展により、強力な大規模言語モデル(LLM)が登場し、自然言語の理解、生成、翻訳をはじめ、言語処理を超えたタスクに至るまで、幅広い領域で驚異的な能力を発揮しています。本報告書では、最先端の言語モデルであるGPT-4に焦点を当て、科学発見の文脈におけるLLMの性能について探求します。私たちの調査は、創薬、生物学、計算化学(密度汎関数理論(DFT)および分子動力学(MD))、材料設計、偏微分方程式(PDE)など、多岐にわたる科学分野に及びます。GPT-4を科学タスクで評価することは、さまざまな研究領域におけるその潜在能力を明らかにし、ドメイン固有の専門知識を検証し、科学の進歩を加速し、リソースの最適化を図り、将来のモデル開発を導き、学際的研究を促進するために極めて重要です。私たちの探求手法は、主に専門家によるケース評価から成り、これによりモデルが複雑な科学的概念や関係をどの程度理解しているかについて定性的な洞察を得ます。また、時にはベンチマークテストも行い、モデルが明確に定義されたドメイン固有の問題を解決する能力を定量的に評価します。私たちの予備的な探求によると、GPT-4はさまざまな科学アプリケーションにおいて有望な潜在能力を示し、複雑な問題解決や知識統合タスクを扱う能力を発揮しています。概して、私たちはGPT-4の知識ベース、科学的理解力、科学的数値計算能力、およびさまざまな科学的予測能力を評価しています。
English
In recent years, groundbreaking advancements in natural language processing
have culminated in the emergence of powerful large language models (LLMs),
which have showcased remarkable capabilities across a vast array of domains,
including the understanding, generation, and translation of natural language,
and even tasks that extend beyond language processing. In this report, we delve
into the performance of LLMs within the context of scientific discovery,
focusing on GPT-4, the state-of-the-art language model. Our investigation spans
a diverse range of scientific areas encompassing drug discovery, biology,
computational chemistry (density functional theory (DFT) and molecular dynamics
(MD)), materials design, and partial differential equations (PDE). Evaluating
GPT-4 on scientific tasks is crucial for uncovering its potential across
various research domains, validating its domain-specific expertise,
accelerating scientific progress, optimizing resource allocation, guiding
future model development, and fostering interdisciplinary research. Our
exploration methodology primarily consists of expert-driven case assessments,
which offer qualitative insights into the model's comprehension of intricate
scientific concepts and relationships, and occasionally benchmark testing,
which quantitatively evaluates the model's capacity to solve well-defined
domain-specific problems. Our preliminary exploration indicates that GPT-4
exhibits promising potential for a variety of scientific applications,
demonstrating its aptitude for handling complex problem-solving and knowledge
integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base,
scientific understanding, scientific numerical calculation abilities, and
various scientific prediction capabilities.