ChatPaper.aiChatPaper

대형 언어 모델은 초인간적인 화학자인가?

Are large language models superhuman chemists?

April 1, 2024
저자: Adrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka
cs.AI

초록

대규모 언어 모델(LLMs)은 인간 언어를 처리하고 명시적으로 훈련받지 않은 작업을 수행할 수 있는 능력으로 인해 폭넓은 관심을 받고 있습니다. 이는 텍스트 형태로 자주 존재하는 소규모이고 다양한 데이터셋의 문제에 직면한 화학 과학 분야와 관련이 있습니다. LLMs는 이러한 문제를 해결하는 데 유망한 가능성을 보여주었으며, 화학적 특성을 예측하고, 반응을 최적화하며, 심지어 실험을 자율적으로 설계하고 수행하는 데 점점 더 활용되고 있습니다. 그러나 우리는 여전히 LLMs의 화학적 추론 능력에 대한 체계적인 이해가 매우 제한적이며, 이는 모델을 개선하고 잠재적인 위험을 완화하기 위해 필요한 부분입니다. 여기서 우리는 최신 LLMs의 화학 지식과 추론 능력을 인간 화학자의 전문성과 엄격하게 비교 평가하기 위해 설계된 자동화된 프레임워크인 "ChemBench"를 소개합니다. 우리는 화학 과학의 다양한 하위 분야에 대해 7,000개 이상의 질문-답변 쌍을 선별하고, 주요 오픈소스 및 클로즈드소스 LLMs를 평가한 결과, 최고의 모델들이 평균적으로 우리 연구에서 최고의 인간 화학자들을 능가하는 것으로 나타났습니다. 그러나 이 모델들은 인간 전문가들에게는 쉬운 일부 화학적 추론 작업에서 어려움을 겪으며, 화학 물질의 안전성 프로필과 관련된 과도하게 확신에 찬 오해의 소지가 있는 예측을 제공합니다. 이러한 발견들은 LLMs가 화학 작업에서 놀라운 숙련도를 보여주지만, 화학 과학에서의 안전성과 유용성을 향상시키기 위한 추가 연구가 중요하다는 이중적인 현실을 강조합니다. 우리의 연구 결과는 또한 화학 교육과정의 적응 필요성을 나타내며, 안전하고 유용한 LLMs를 개선하기 위한 평가 프레임워크의 지속적인 개발의 중요성을 강조합니다.
English
Large language models (LLMs) have gained widespread interest due to their ability to process human language and perform tasks on which they have not been explicitly trained. This is relevant for the chemical sciences, which face the problem of small and diverse datasets that are frequently in the form of text. LLMs have shown promise in addressing these issues and are increasingly being harnessed to predict chemical properties, optimize reactions, and even design and conduct experiments autonomously. However, we still have only a very limited systematic understanding of the chemical reasoning capabilities of LLMs, which would be required to improve models and mitigate potential harms. Here, we introduce "ChemBench," an automated framework designed to rigorously evaluate the chemical knowledge and reasoning abilities of state-of-the-art LLMs against the expertise of human chemists. We curated more than 7,000 question-answer pairs for a wide array of subfields of the chemical sciences, evaluated leading open and closed-source LLMs, and found that the best models outperformed the best human chemists in our study on average. The models, however, struggle with some chemical reasoning tasks that are easy for human experts and provide overconfident, misleading predictions, such as about chemicals' safety profiles. These findings underscore the dual reality that, although LLMs demonstrate remarkable proficiency in chemical tasks, further research is critical to enhancing their safety and utility in chemical sciences. Our findings also indicate a need for adaptations to chemistry curricula and highlight the importance of continuing to develop evaluation frameworks to improve safe and useful LLMs.

Summary

AI-Generated Summary

PDF191November 26, 2024