LAB-Bench: Messung der Fähigkeiten von Sprachmodellen für biologische Forschung

papers.abstract

Es herrscht weit verbreiteter Optimismus, dass fortschrittliche Large Language Models (LLMs) und LLM-augmentierte Systeme das Potenzial haben, wissenschaftliche Entdeckungen über verschiedene Disziplinen hinweg schnell voranzutreiben. Heutzutage gibt es viele Benchmarks, um das Wissen und die Schlussfolgerungsfähigkeiten von LLMs anhand von wissenschaftlichen Fragen im Lehrbuchstil zu messen, aber nur wenige, wenn überhaupt, sind darauf ausgelegt, die Leistung von Sprachmodellen bei praktischen Aufgaben zu bewerten, die für wissenschaftliche Forschung erforderlich sind, wie Literaturrecherche, Protokollplanung und Datenanalyse. Als Schritt zur Entwicklung solcher Benchmarks stellen wir den Language Agent Biology Benchmark (LAB-Bench) vor, einen umfangreichen Datensatz mit über 2.400 Multiple-Choice-Fragen zur Bewertung von KI-Systemen in verschiedenen praktischen biologischen Forschungsbereichen, einschließlich des Abrufs und der Schlussfolgerung aus Literatur, Interpretation von Abbildungen, Zugriff und Navigation von Datenbanken sowie Verständnis und Bearbeitung von DNA- und Proteinsequenzen. Wichtig ist, dass wir im Gegensatz zu früheren wissenschaftlichen Benchmarks erwarten, dass ein KI-System, das konsequent hohe Punktzahlen bei den anspruchsvolleren LAB-Bench-Aufgaben erreichen kann, als nützlicher Assistent für Forscher in Bereichen wie Literaturrecherche und molekularer Klonierung dienen würde. Als erste Bewertung der aufkommenden wissenschaftlichen Fähigkeiten von fortschrittlichen Sprachmodellen messen wir die Leistung einiger Modelle anhand unseres Benchmarks und berichten über die Ergebnisse im Vergleich zu menschlichen Experten aus dem Bereich Biologie. Wir werden LAB-Bench im Laufe der Zeit weiter aktualisieren und erweitern und erwarten, dass es als nützliches Werkzeug bei der Entwicklung automatisierter Forschungssysteme dienen wird. Ein öffentlicher Teil von LAB-Bench steht unter folgender URL zur Verfügung: https://huggingface.co/datasets/futurehouse/lab-bench

English

There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench

LAB-Bench: Messung der Fähigkeiten von Sprachmodellen für biologische Forschung

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

papers.abstract

Support