ChatPaper.aiChatPaper

CURIE: Valutazione di Modelli Linguistici su Comprensione e Ragionamento in Contesti Scientifici Multitask Estesi

CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning

March 14, 2025
Autori: Hao Cui, Zahra Shamsi, Gowoon Cheon, Xuejian Ma, Shutong Li, Maria Tikhanovskaya, Peter Norgaard, Nayantara Mudur, Martyna Plomecka, Paul Raccuglia, Yasaman Bahri, Victor V. Albert, Pranesh Srinivasan, Haining Pan, Philippe Faist, Brian Rohr, Michael J. Statt, Dan Morris, Drew Purves, Elise Kleeman, Ruth Alcantara, Matthew Abraham, Muqthar Mohammad, Ean Phing VanLee, Chenfei Jiang, Elizabeth Dorfman, Eun-Ah Kim, Michael P Brenner, Viren Jain, Sameera Ponda, Subhashini Venugopalan
cs.AI

Abstract

La risoluzione di problemi scientifici implica la sintesi di informazioni applicando conoscenze specialistiche. Introduciamo CURIE, un benchmark di Comprensione del Contesto Lungo, Ragionamento ed Estrazione di Informazioni scientifiche, progettato per misurare il potenziale dei Modelli Linguistici di Grande Scala (LLMs) nella risoluzione di problemi scientifici e nell'assistenza agli scienziati in flussi di lavoro realistici. Questo benchmark propone dieci compiti impegnativi con un totale di 580 coppie di problemi e soluzioni curate da esperti in sei discipline - scienza dei materiali, fisica della materia condensata, calcolo quantistico, analisi geospaziale, biodiversità e proteine - coprendo sia flussi di lavoro sperimentali che teorici nella scienza. Valutiamo una gamma di LLMs chiusi e aperti sui compiti di CURIE, che richiedono competenze specifiche del dominio, comprensione di informazioni contestuali lunghe e ragionamenti a più passaggi. Mentre Gemini Flash 2.0 e Claude-3 dimostrano una comprensione costantemente alta in tutti i domini, i popolari GPT-4o e command-R+ falliscono in modo significativo nei compiti di sequenziamento proteico. Con la migliore prestazione al 32%, c'è molto spazio per miglioramenti per tutti i modelli. Speriamo che le intuizioni ottenute da CURIE possano guidare lo sviluppo futuro degli LLMs nelle scienze. Il codice e i dati di valutazione sono disponibili su https://github.com/google/curie.
English
Scientific problem-solving involves synthesizing information while applying expert knowledge. We introduce CURIE, a scientific long-Context Understanding,Reasoning and Information Extraction benchmark to measure the potential of Large Language Models (LLMs) in scientific problem-solving and assisting scientists in realistic workflows. This benchmark introduces ten challenging tasks with a total of 580 problems and solution pairs curated by experts in six disciplines - materials science, condensed matter physics, quantum computing, geospatial analysis, biodiversity, and proteins - covering both experimental and theoretical work-flows in science. We evaluate a range of closed and open LLMs on tasks in CURIE which requires domain expertise, comprehension of long in-context information,and multi-step reasoning. While Gemini Flash 2.0 and Claude-3 show consistent high comprehension across domains, the popular GPT-4o and command-R+ fail dramatically on protein sequencing tasks. With the best performance at 32% there is much room for improvement for all models. We hope that insights gained from CURIE can guide the future development of LLMs in sciences. Evaluation code and data are in https://github.com/google/curie
PDF42March 20, 2025