ChatPaper.aiChatPaper

LAB-Bench : Mesurer les capacités des modèles de langage pour la recherche en biologie

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

July 14, 2024
Auteurs: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
cs.AI

Résumé

Il existe un optimisme généralisé selon lequel les modèles de langage de pointe (LLMs) et les systèmes augmentés par LLM ont le potentiel d'accélérer rapidement les découvertes scientifiques dans diverses disciplines. Aujourd'hui, de nombreux benchmarks existent pour mesurer les connaissances et le raisonnement des LLM sur des questions scientifiques de type manuel, mais peu, voire aucun, sont conçus pour évaluer la performance des modèles de langage sur des tâches pratiques nécessaires à la recherche scientifique, telles que la recherche documentaire, la planification de protocoles et l'analyse de données. Pour contribuer à la création de tels benchmarks, nous présentons le Language Agent Biology Benchmark (LAB-Bench), un vaste ensemble de données comprenant plus de 2 400 questions à choix multiples pour évaluer les systèmes d'IA sur une gamme de compétences pratiques en recherche biologique, incluant la mémorisation et le raisonnement sur la littérature, l'interprétation de figures, l'accès et la navigation dans les bases de données, ainsi que la compréhension et la manipulation de séquences d'ADN et de protéines. De manière significative, contrairement aux benchmarks scientifiques précédents, nous estimons qu'un système d'IA capable d'obtenir des scores élevés de manière constante sur les tâches plus difficiles de LAB-Bench pourrait servir d'assistant utile aux chercheurs dans des domaines tels que la recherche documentaire et le clonage moléculaire. En tant qu'évaluation initiale des capacités émergentes des modèles de langage de pointe sur les tâches scientifiques, nous mesurons la performance de plusieurs d'entre eux sur notre benchmark et rapportons les résultats en comparaison avec des chercheurs experts en biologie. Nous continuerons à mettre à jour et à étendre LAB-Bench au fil du temps, et nous espérons qu'il servira d'outil utile dans le développement de systèmes de recherche automatisés à l'avenir. Un sous-ensemble public de LAB-Bench est disponible à l'adresse suivante : https://huggingface.co/datasets/futurehouse/lab-bench
English
There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench

Summary

AI-Generated Summary

PDF62November 28, 2024