ChatPaper.aiChatPaper

LAB-Bench: Misurazione delle Capacità dei Modelli Linguistici per la Ricerca in Biologia

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

July 14, 2024
Autori: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
cs.AI

Abstract

Esiste un diffuso ottimismo sul fatto che i modelli linguistici di frontiera (LLM) e i sistemi potenziati da LLM abbiano il potenziale di accelerare rapidamente la scoperta scientifica in diverse discipline. Oggi esistono molti benchmark per misurare la conoscenza e il ragionamento degli LLM su domande scientifiche di tipo scolastico, ma pochi, se non nessuno, sono progettati per valutare le prestazioni dei modelli linguistici su compiti pratici necessari per la ricerca scientifica, come la ricerca bibliografica, la pianificazione di protocolli e l'analisi dei dati. Come passo verso la creazione di tali benchmark, introduciamo il Language Agent Biology Benchmark (LAB-Bench), un ampio dataset di oltre 2.400 domande a scelta multipla per valutare i sistemi di intelligenza artificiale su una gamma di capacità pratiche di ricerca biologica, tra cui il richiamo e il ragionamento sulla letteratura, l'interpretazione di figure, l'accesso e la navigazione di database, e la comprensione e manipolazione di sequenze di DNA e proteine. È importante sottolineare che, a differenza dei precedenti benchmark scientifici, ci aspettiamo che un sistema di intelligenza artificiale in grado di ottenere punteggi costantemente alti sui compiti più difficili di LAB-Bench possa servire come un utile assistente per i ricercatori in aree come la ricerca bibliografica e il clonaggio molecolare. Come valutazione iniziale delle capacità emergenti dei modelli linguistici di frontiera su compiti scientifici, misuriamo le prestazioni di diversi modelli rispetto al nostro benchmark e riportiamo i risultati confrontati con quelli di ricercatori esperti in biologia. Continueremo ad aggiornare e ampliare LAB-Bench nel tempo, e ci aspettiamo che possa servire come uno strumento utile nello sviluppo di sistemi di ricerca automatizzati in futuro. Un sottoinsieme pubblico di LAB-Bench è disponibile per l'uso al seguente URL: https://huggingface.co/datasets/futurehouse/lab-bench
English
There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench
PDF62November 28, 2024