ChatPaper.aiChatPaper

LAB-Bench: Het meten van de capaciteiten van taalmodelen voor biologisch onderzoek

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

July 14, 2024
Auteurs: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
cs.AI

Samenvatting

Er bestaat een wijdverbreid optimisme dat frontier Large Language Models (LLM's) en LLM-augmented systemen het potentieel hebben om wetenschappelijke ontdekkingen in verschillende disciplines snel te versnellen. Tegenwoordig bestaan er veel benchmarks om de kennis en het redeneervermogen van LLM's te meten aan de hand van leerboekachtige wetenschappelijke vragen, maar er zijn weinig tot geen benchmarks ontworpen om de prestaties van taalmodelen te evalueren op praktische taken die nodig zijn voor wetenschappelijk onderzoek, zoals literatuuronderzoek, protocolplanning en data-analyse. Als een stap naar het opbouwen van dergelijke benchmarks introduceren we de Language Agent Biology Benchmark (LAB-Bench), een uitgebreide dataset van meer dan 2.400 meerkeuzevragen om AI-systemen te evalueren op een reeks praktische biologie-onderzoeksvaardigheden, waaronder het ophalen en redeneren over literatuur, het interpreteren van figuren, het toegang krijgen tot en navigeren door databases, en het begrijpen en manipuleren van DNA- en eiwitsequenties. Belangrijk is dat, in tegenstelling tot eerdere wetenschappelijke benchmarks, we verwachten dat een AI-systeem dat consistent hoge scores behaalt op de moeilijkere LAB-Bench-taken, een nuttige assistent zou zijn voor onderzoekers op gebieden zoals literatuuronderzoek en moleculair klonen. Als een eerste beoordeling van de opkomende wetenschappelijke taakcapaciteiten van frontier taalmodelen, meten we de prestaties van verschillende modellen tegen onze benchmark en rapporteren we de resultaten in vergelijking met menselijke expert-onderzoekers in de biologie. We zullen LAB-Bench in de loop van de tijd blijven updaten en uitbreiden, en verwachten dat het een nuttig hulpmiddel zal zijn bij de ontwikkeling van geautomatiseerde onderzoekssystemen in de toekomst. Een openbare subset van LAB-Bench is beschikbaar voor gebruik op de volgende URL: https://huggingface.co/datasets/futurehouse/lab-bench
English
There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench
PDF62February 8, 2026