ChatPaper.aiChatPaper

LAB-Bench: Измерение возможностей языковых моделей для биологических исследований

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

July 14, 2024
Авторы: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
cs.AI

Аннотация

Существует широкий оптимизм относительно того, что передовые модели больших языков (Large Language Models, LLM) и системы, усиленные LLM, имеют потенциал быстрого ускорения научных открытий в различных областях. В настоящее время существует множество бенчмарков для измерения знаний и рассуждений LLM на вопросы научного стиля учебников, но мало, если вообще есть, бенчмарков, разработанных для оценки производительности языковых моделей в практических задачах, необходимых для научных исследований, таких как поиск литературы, планирование протоколов и анализ данных. В качестве шага к созданию таких бенчмарков мы представляем Биологический бенчмарк языкового агента (LAB-Bench), обширный набор данных из более чем 2 400 вопросов с выбором ответа для оценки производительности ИИ-систем в различных практических возможностях биологических исследований, включая воспроизведение и рассуждения над литературой, интерпретацию фигур, доступ и навигацию по базам данных, понимание и манипулирование последовательностями ДНК и белков. Важно отметить, что, в отличие от предыдущих научных бенчмарков, мы ожидаем, что ИИ-система, способная последовательно достигать высоких баллов в более сложных задачах LAB-Bench, будет служить полезным помощником для исследователей в областях, таких как поиск литературы и молекулярное клонирование. В качестве начальной оценки возникающих научных возможностей передовых языковых моделей мы измеряем производительность нескольких моделей по нашему бенчмарку и сообщаем о результатах по сравнению с биологами-экспертами. Мы будем продолжать обновлять и расширять LAB-Bench со временем и ожидаем, что он станет полезным инструментом в разработке автоматизированных систем исследований в будущем. Публичный набор данных LAB-Bench доступен для использования по следующему URL-адресу: https://huggingface.co/datasets/futurehouse/lab-bench
English
There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench

Summary

AI-Generated Summary

PDF62November 28, 2024