ChatPaper.aiChatPaper

Os grandes modelos de linguagem são químicos sobre-humanos?

Are large language models superhuman chemists?

April 1, 2024
Autores: Adrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka
cs.AI

Resumo

Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) têm despertado amplo interesse devido à sua capacidade de processar a linguagem humana e realizar tarefas para as quais não foram explicitamente treinados. Isso é relevante para as ciências químicas, que enfrentam o problema de conjuntos de dados pequenos e diversos, frequentemente na forma de texto. Os LLMs têm mostrado potencial para abordar essas questões e estão sendo cada vez mais utilizados para prever propriedades químicas, otimizar reações e até mesmo projetar e conduzir experimentos de forma autônoma. No entanto, ainda temos um entendimento sistemático muito limitado das capacidades de raciocínio químico dos LLMs, o que seria necessário para melhorar os modelos e mitigar possíveis danos. Aqui, apresentamos o "ChemBench", um framework automatizado projetado para avaliar rigorosamente o conhecimento químico e as habilidades de raciocínio dos LLMs de última geração em comparação com a expertise de químicos humanos. Curamos mais de 7.000 pares de perguntas e respostas para uma ampla gama de subáreas das ciências químicas, avaliamos os principais LLMs de código aberto e proprietários, e descobrimos que os melhores modelos superaram, em média, os melhores químicos humanos em nosso estudo. No entanto, os modelos têm dificuldade com algumas tarefas de raciocínio químico que são fáceis para especialistas humanos e fornecem previsões excessivamente confiantes e enganosas, como sobre os perfis de segurança de produtos químicos. Essas descobertas destacam a realidade dupla de que, embora os LLMs demonstrem proficiência notável em tarefas químicas, mais pesquisas são críticas para aprimorar sua segurança e utilidade nas ciências químicas. Nossos resultados também indicam a necessidade de adaptações nos currículos de química e ressaltam a importância de continuar a desenvolver frameworks de avaliação para melhorar a segurança e a utilidade dos LLMs.
English
Large language models (LLMs) have gained widespread interest due to their ability to process human language and perform tasks on which they have not been explicitly trained. This is relevant for the chemical sciences, which face the problem of small and diverse datasets that are frequently in the form of text. LLMs have shown promise in addressing these issues and are increasingly being harnessed to predict chemical properties, optimize reactions, and even design and conduct experiments autonomously. However, we still have only a very limited systematic understanding of the chemical reasoning capabilities of LLMs, which would be required to improve models and mitigate potential harms. Here, we introduce "ChemBench," an automated framework designed to rigorously evaluate the chemical knowledge and reasoning abilities of state-of-the-art LLMs against the expertise of human chemists. We curated more than 7,000 question-answer pairs for a wide array of subfields of the chemical sciences, evaluated leading open and closed-source LLMs, and found that the best models outperformed the best human chemists in our study on average. The models, however, struggle with some chemical reasoning tasks that are easy for human experts and provide overconfident, misleading predictions, such as about chemicals' safety profiles. These findings underscore the dual reality that, although LLMs demonstrate remarkable proficiency in chemical tasks, further research is critical to enhancing their safety and utility in chemical sciences. Our findings also indicate a need for adaptations to chemistry curricula and highlight the importance of continuing to develop evaluation frameworks to improve safe and useful LLMs.
PDF191November 26, 2024