LAB-Bench: Messung der Fähigkeiten von Sprachmodellen für biologische Forschung
LAB-Bench: Measuring Capabilities of Language Models for Biology Research
July 14, 2024
Autoren: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
cs.AI
Zusammenfassung
Es herrscht weit verbreiteter Optimismus, dass fortschrittliche Large Language Models (LLMs) und LLM-augmentierte Systeme das Potenzial haben, wissenschaftliche Entdeckungen über verschiedene Disziplinen hinweg schnell voranzutreiben. Heutzutage gibt es viele Benchmarks, um das Wissen und die Schlussfolgerungsfähigkeiten von LLMs anhand von wissenschaftlichen Fragen im Lehrbuchstil zu messen, aber nur wenige, wenn überhaupt, sind darauf ausgelegt, die Leistung von Sprachmodellen bei praktischen Aufgaben zu bewerten, die für wissenschaftliche Forschung erforderlich sind, wie Literaturrecherche, Protokollplanung und Datenanalyse. Als Schritt zur Entwicklung solcher Benchmarks stellen wir den Language Agent Biology Benchmark (LAB-Bench) vor, einen umfangreichen Datensatz mit über 2.400 Multiple-Choice-Fragen zur Bewertung von KI-Systemen in verschiedenen praktischen biologischen Forschungsbereichen, einschließlich des Abrufs und der Schlussfolgerung aus Literatur, Interpretation von Abbildungen, Zugriff und Navigation von Datenbanken sowie Verständnis und Bearbeitung von DNA- und Proteinsequenzen. Wichtig ist, dass wir im Gegensatz zu früheren wissenschaftlichen Benchmarks erwarten, dass ein KI-System, das konsequent hohe Punktzahlen bei den anspruchsvolleren LAB-Bench-Aufgaben erreichen kann, als nützlicher Assistent für Forscher in Bereichen wie Literaturrecherche und molekularer Klonierung dienen würde. Als erste Bewertung der aufkommenden wissenschaftlichen Fähigkeiten von fortschrittlichen Sprachmodellen messen wir die Leistung einiger Modelle anhand unseres Benchmarks und berichten über die Ergebnisse im Vergleich zu menschlichen Experten aus dem Bereich Biologie. Wir werden LAB-Bench im Laufe der Zeit weiter aktualisieren und erweitern und erwarten, dass es als nützliches Werkzeug bei der Entwicklung automatisierter Forschungssysteme dienen wird. Ein öffentlicher Teil von LAB-Bench steht unter folgender URL zur Verfügung: https://huggingface.co/datasets/futurehouse/lab-bench
English
There is widespread optimism that frontier Large Language Models (LLMs) and
LLM-augmented systems have the potential to rapidly accelerate scientific
discovery across disciplines. Today, many benchmarks exist to measure LLM
knowledge and reasoning on textbook-style science questions, but few if any
benchmarks are designed to evaluate language model performance on practical
tasks required for scientific research, such as literature search, protocol
planning, and data analysis. As a step toward building such benchmarks, we
introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of
over 2,400 multiple choice questions for evaluating AI systems on a range of
practical biology research capabilities, including recall and reasoning over
literature, interpretation of figures, access and navigation of databases, and
comprehension and manipulation of DNA and protein sequences. Importantly, in
contrast to previous scientific benchmarks, we expect that an AI system that
can achieve consistently high scores on the more difficult LAB-Bench tasks
would serve as a useful assistant for researchers in areas such as literature
search and molecular cloning. As an initial assessment of the emergent
scientific task capabilities of frontier language models, we measure
performance of several against our benchmark and report results compared to
human expert biology researchers. We will continue to update and expand
LAB-Bench over time, and expect it to serve as a useful tool in the development
of automated research systems going forward. A public subset of LAB-Bench is
available for use at the following URL:
https://huggingface.co/datasets/futurehouse/lab-benchSummary
AI-Generated Summary