LAB-Bench: Измерение возможностей языковых моделей для биологических исследований
LAB-Bench: Measuring Capabilities of Language Models for Biology Research
July 14, 2024
Авторы: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
cs.AI
Аннотация
Существует широкий оптимизм относительно того, что передовые модели больших языков (Large Language Models, LLM) и системы, усиленные LLM, имеют потенциал быстрого ускорения научных открытий в различных областях. В настоящее время существует множество бенчмарков для измерения знаний и рассуждений LLM на вопросы научного стиля учебников, но мало, если вообще есть, бенчмарков, разработанных для оценки производительности языковых моделей в практических задачах, необходимых для научных исследований, таких как поиск литературы, планирование протоколов и анализ данных. В качестве шага к созданию таких бенчмарков мы представляем Биологический бенчмарк языкового агента (LAB-Bench), обширный набор данных из более чем 2 400 вопросов с выбором ответа для оценки производительности ИИ-систем в различных практических возможностях биологических исследований, включая воспроизведение и рассуждения над литературой, интерпретацию фигур, доступ и навигацию по базам данных, понимание и манипулирование последовательностями ДНК и белков. Важно отметить, что, в отличие от предыдущих научных бенчмарков, мы ожидаем, что ИИ-система, способная последовательно достигать высоких баллов в более сложных задачах LAB-Bench, будет служить полезным помощником для исследователей в областях, таких как поиск литературы и молекулярное клонирование. В качестве начальной оценки возникающих научных возможностей передовых языковых моделей мы измеряем производительность нескольких моделей по нашему бенчмарку и сообщаем о результатах по сравнению с биологами-экспертами. Мы будем продолжать обновлять и расширять LAB-Bench со временем и ожидаем, что он станет полезным инструментом в разработке автоматизированных систем исследований в будущем. Публичный набор данных LAB-Bench доступен для использования по следующему URL-адресу: https://huggingface.co/datasets/futurehouse/lab-bench
English
There is widespread optimism that frontier Large Language Models (LLMs) and
LLM-augmented systems have the potential to rapidly accelerate scientific
discovery across disciplines. Today, many benchmarks exist to measure LLM
knowledge and reasoning on textbook-style science questions, but few if any
benchmarks are designed to evaluate language model performance on practical
tasks required for scientific research, such as literature search, protocol
planning, and data analysis. As a step toward building such benchmarks, we
introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of
over 2,400 multiple choice questions for evaluating AI systems on a range of
practical biology research capabilities, including recall and reasoning over
literature, interpretation of figures, access and navigation of databases, and
comprehension and manipulation of DNA and protein sequences. Importantly, in
contrast to previous scientific benchmarks, we expect that an AI system that
can achieve consistently high scores on the more difficult LAB-Bench tasks
would serve as a useful assistant for researchers in areas such as literature
search and molecular cloning. As an initial assessment of the emergent
scientific task capabilities of frontier language models, we measure
performance of several against our benchmark and report results compared to
human expert biology researchers. We will continue to update and expand
LAB-Bench over time, and expect it to serve as a useful tool in the development
of automated research systems going forward. A public subset of LAB-Bench is
available for use at the following URL:
https://huggingface.co/datasets/futurehouse/lab-benchSummary
AI-Generated Summary