Zijn grote taalmodellen supermenselijke chemici?
Are large language models superhuman chemists?
April 1, 2024
Auteurs: Adrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) hebben brede interesse gewekt vanwege hun vermogen om menselijke taal te verwerken en taken uit te voeren waarop ze niet expliciet zijn getraind. Dit is relevant voor de chemische wetenschappen, die te maken hebben met het probleem van kleine en diverse datasets die vaak in tekstvorm zijn. LLMs hebben belofte getoond in het aanpakken van deze problemen en worden steeds vaker ingezet om chemische eigenschappen te voorspellen, reacties te optimaliseren en zelfs experimenten autonoom te ontwerpen en uit te voeren. We hebben echter nog maar een zeer beperkt systematisch begrip van de chemische redeneervaardigheden van LLMs, wat nodig zou zijn om modellen te verbeteren en mogelijke schade te beperken. Hier introduceren we "ChemBench," een geautomatiseerd raamwerk ontworpen om de chemische kennis en redeneervaardigheden van state-of-the-art LLMs rigoureus te evalueren tegen de expertise van menselijke chemici. We hebben meer dan 7.000 vraag-antwoordparen samengesteld voor een breed scala aan subvelden van de chemische wetenschappen, hebben toonaangevende open en closed-source LLMs geëvalueerd, en ontdekten dat de beste modellen gemiddeld beter presteerden dan de beste menselijke chemici in ons onderzoek. De modellen hebben echter moeite met sommige chemische redeneertaken die eenvoudig zijn voor menselijke experts en geven overmoedige, misleidende voorspellingen, bijvoorbeeld over de veiligheidsprofielen van chemicaliën. Deze bevindingen onderstrepen de dubbele realiteit dat, hoewel LLMs opmerkelijke vaardigheden tonen in chemische taken, verder onderzoek cruciaal is om hun veiligheid en bruikbaarheid in de chemische wetenschappen te verbeteren. Onze bevindingen wijzen ook op de noodzaak van aanpassingen aan chemiecurricula en benadrukken het belang van het blijven ontwikkelen van evaluatieraamwerken om veilige en nuttige LLMs te verbeteren.
English
Large language models (LLMs) have gained widespread interest due to their
ability to process human language and perform tasks on which they have not been
explicitly trained. This is relevant for the chemical sciences, which face the
problem of small and diverse datasets that are frequently in the form of text.
LLMs have shown promise in addressing these issues and are increasingly being
harnessed to predict chemical properties, optimize reactions, and even design
and conduct experiments autonomously. However, we still have only a very
limited systematic understanding of the chemical reasoning capabilities of
LLMs, which would be required to improve models and mitigate potential harms.
Here, we introduce "ChemBench," an automated framework designed to rigorously
evaluate the chemical knowledge and reasoning abilities of state-of-the-art
LLMs against the expertise of human chemists. We curated more than 7,000
question-answer pairs for a wide array of subfields of the chemical sciences,
evaluated leading open and closed-source LLMs, and found that the best models
outperformed the best human chemists in our study on average. The models,
however, struggle with some chemical reasoning tasks that are easy for human
experts and provide overconfident, misleading predictions, such as about
chemicals' safety profiles. These findings underscore the dual reality that,
although LLMs demonstrate remarkable proficiency in chemical tasks, further
research is critical to enhancing their safety and utility in chemical
sciences. Our findings also indicate a need for adaptations to chemistry
curricula and highlight the importance of continuing to develop evaluation
frameworks to improve safe and useful LLMs.