ChatPaper.aiChatPaper

LAB-Bench: Medición de las Capacidades de los Modelos de Lenguaje para la Investigación en Biología

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

July 14, 2024
Autores: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
cs.AI

Resumen

Existe un amplio optimismo de que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) de vanguardia y los sistemas mejorados con LLM tienen el potencial de acelerar rápidamente el descubrimiento científico en diversas disciplinas. En la actualidad, existen muchos puntos de referencia para medir el conocimiento y el razonamiento de los LLM en preguntas científicas de estilo de libro de texto, pero pocos, si es que hay alguno, están diseñados para evaluar el rendimiento de los modelos de lenguaje en tareas prácticas requeridas para la investigación científica, como la búsqueda de literatura, la planificación de protocolos y el análisis de datos. Como un paso hacia la creación de tales puntos de referencia, presentamos el Benchmark de Biología del Agente de Lenguaje (LAB-Bench), un extenso conjunto de datos de más de 2,400 preguntas de opción múltiple para evaluar sistemas de IA en una variedad de capacidades prácticas de investigación en biología, incluyendo la recuperación y el razonamiento sobre literatura, la interpretación de figuras, el acceso y la navegación de bases de datos, y la comprensión y manipulación de secuencias de ADN y proteínas. Es importante destacar que, a diferencia de puntos de referencia científicos anteriores, esperamos que un sistema de IA que pueda lograr consistentemente altas puntuaciones en las tareas más difíciles de LAB-Bench sirva como un asistente útil para investigadores en áreas como la búsqueda de literatura y la clonación molecular. Como evaluación inicial de las capacidades emergentes de tareas científicas de los modelos de lenguaje de vanguardia, medimos el rendimiento de varios frente a nuestro punto de referencia y reportamos resultados en comparación con investigadores expertos en biología humanos. Continuaremos actualizando y ampliando LAB-Bench con el tiempo, y esperamos que sirva como una herramienta útil en el desarrollo de sistemas de investigación automatizados en el futuro. Un subconjunto público de LAB-Bench está disponible para su uso en la siguiente URL: https://huggingface.co/datasets/futurehouse/lab-bench
English
There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench

Summary

AI-Generated Summary

PDF62November 28, 2024