LAB-Bench: Medindo as Capacidades de Modelos de Linguagem para Biologia Pesquisa

Resumo

Existe um amplo otimismo de que os Modelos de Linguagem de Grande Escala (LLMs) de fronteira e sistemas aprimorados por LLM têm o potencial de acelerar rapidamente a descoberta científica em diversas disciplinas. Atualmente, existem muitos benchmarks para medir o conhecimento e raciocínio de LLM em questões científicas no estilo de livros didáticos, mas poucos, se houver, são projetados para avaliar o desempenho de modelos de linguagem em tarefas práticas necessárias para a pesquisa científica, como busca de literatura, planejamento de protocolos e análise de dados. Como um passo em direção à construção de tais benchmarks, apresentamos o Benchmark de Biologia do Agente de Linguagem (LAB-Bench), um amplo conjunto de dados com mais de 2.400 perguntas de múltipla escolha para avaliar sistemas de IA em uma variedade de capacidades práticas de pesquisa em biologia, incluindo recordação e raciocínio sobre literatura, interpretação de figuras, acesso e navegação em bancos de dados, e compreensão e manipulação de sequências de DNA e proteínas. Importante ressaltar que, em contraste com benchmarks científicos anteriores, esperamos que um sistema de IA que consiga obter consistentemente altas pontuações nas tarefas mais difíceis do LAB-Bench seja um assistente útil para pesquisadores em áreas como busca de literatura e clonagem molecular. Como uma avaliação inicial das capacidades emergentes de tarefas científicas dos modelos de linguagem de fronteira, medimos o desempenho de vários em relação ao nosso benchmark e relatamos os resultados comparados aos pesquisadores especializados em biologia. Continuaremos a atualizar e expandir o LAB-Bench ao longo do tempo, e esperamos que ele seja uma ferramenta útil no desenvolvimento de sistemas de pesquisa automatizados no futuro. Um subconjunto público do LAB-Bench está disponível para uso no seguinte URL: https://huggingface.co/datasets/futurehouse/lab-bench

English

There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench

LAB-Bench: Medindo as Capacidades de Modelos de Linguagem para Biologia Pesquisa

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

Resumo

Support