LAB-Bench: Medindo as Capacidades de Modelos de Linguagem para Biologia Pesquisa
LAB-Bench: Measuring Capabilities of Language Models for Biology Research
July 14, 2024
Autores: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
cs.AI
Resumo
Existe um amplo otimismo de que os Modelos de Linguagem de Grande Escala (LLMs) de fronteira e sistemas aprimorados por LLM têm o potencial de acelerar rapidamente a descoberta científica em diversas disciplinas. Atualmente, existem muitos benchmarks para medir o conhecimento e raciocínio de LLM em questões científicas no estilo de livros didáticos, mas poucos, se houver, são projetados para avaliar o desempenho de modelos de linguagem em tarefas práticas necessárias para a pesquisa científica, como busca de literatura, planejamento de protocolos e análise de dados. Como um passo em direção à construção de tais benchmarks, apresentamos o Benchmark de Biologia do Agente de Linguagem (LAB-Bench), um amplo conjunto de dados com mais de 2.400 perguntas de múltipla escolha para avaliar sistemas de IA em uma variedade de capacidades práticas de pesquisa em biologia, incluindo recordação e raciocínio sobre literatura, interpretação de figuras, acesso e navegação em bancos de dados, e compreensão e manipulação de sequências de DNA e proteínas. Importante ressaltar que, em contraste com benchmarks científicos anteriores, esperamos que um sistema de IA que consiga obter consistentemente altas pontuações nas tarefas mais difíceis do LAB-Bench seja um assistente útil para pesquisadores em áreas como busca de literatura e clonagem molecular. Como uma avaliação inicial das capacidades emergentes de tarefas científicas dos modelos de linguagem de fronteira, medimos o desempenho de vários em relação ao nosso benchmark e relatamos os resultados comparados aos pesquisadores especializados em biologia. Continuaremos a atualizar e expandir o LAB-Bench ao longo do tempo, e esperamos que ele seja uma ferramenta útil no desenvolvimento de sistemas de pesquisa automatizados no futuro. Um subconjunto público do LAB-Bench está disponível para uso no seguinte URL: https://huggingface.co/datasets/futurehouse/lab-bench
English
There is widespread optimism that frontier Large Language Models (LLMs) and
LLM-augmented systems have the potential to rapidly accelerate scientific
discovery across disciplines. Today, many benchmarks exist to measure LLM
knowledge and reasoning on textbook-style science questions, but few if any
benchmarks are designed to evaluate language model performance on practical
tasks required for scientific research, such as literature search, protocol
planning, and data analysis. As a step toward building such benchmarks, we
introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of
over 2,400 multiple choice questions for evaluating AI systems on a range of
practical biology research capabilities, including recall and reasoning over
literature, interpretation of figures, access and navigation of databases, and
comprehension and manipulation of DNA and protein sequences. Importantly, in
contrast to previous scientific benchmarks, we expect that an AI system that
can achieve consistently high scores on the more difficult LAB-Bench tasks
would serve as a useful assistant for researchers in areas such as literature
search and molecular cloning. As an initial assessment of the emergent
scientific task capabilities of frontier language models, we measure
performance of several against our benchmark and report results compared to
human expert biology researchers. We will continue to update and expand
LAB-Bench over time, and expect it to serve as a useful tool in the development
of automated research systems going forward. A public subset of LAB-Bench is
available for use at the following URL:
https://huggingface.co/datasets/futurehouse/lab-bench