LAB-Bench: Medición de las Capacidades de los Modelos de Lenguaje para la Investigación en Biología
LAB-Bench: Measuring Capabilities of Language Models for Biology Research
July 14, 2024
Autores: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
cs.AI
Resumen
Existe un amplio optimismo de que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) de vanguardia y los sistemas mejorados con LLM tienen el potencial de acelerar rápidamente el descubrimiento científico en diversas disciplinas. En la actualidad, existen muchos puntos de referencia para medir el conocimiento y el razonamiento de los LLM en preguntas científicas de estilo de libro de texto, pero pocos, si es que hay alguno, están diseñados para evaluar el rendimiento de los modelos de lenguaje en tareas prácticas requeridas para la investigación científica, como la búsqueda de literatura, la planificación de protocolos y el análisis de datos. Como un paso hacia la creación de tales puntos de referencia, presentamos el Benchmark de Biología del Agente de Lenguaje (LAB-Bench), un extenso conjunto de datos de más de 2,400 preguntas de opción múltiple para evaluar sistemas de IA en una variedad de capacidades prácticas de investigación en biología, incluyendo la recuperación y el razonamiento sobre literatura, la interpretación de figuras, el acceso y la navegación de bases de datos, y la comprensión y manipulación de secuencias de ADN y proteínas. Es importante destacar que, a diferencia de puntos de referencia científicos anteriores, esperamos que un sistema de IA que pueda lograr consistentemente altas puntuaciones en las tareas más difíciles de LAB-Bench sirva como un asistente útil para investigadores en áreas como la búsqueda de literatura y la clonación molecular. Como evaluación inicial de las capacidades emergentes de tareas científicas de los modelos de lenguaje de vanguardia, medimos el rendimiento de varios frente a nuestro punto de referencia y reportamos resultados en comparación con investigadores expertos en biología humanos. Continuaremos actualizando y ampliando LAB-Bench con el tiempo, y esperamos que sirva como una herramienta útil en el desarrollo de sistemas de investigación automatizados en el futuro. Un subconjunto público de LAB-Bench está disponible para su uso en la siguiente URL: https://huggingface.co/datasets/futurehouse/lab-bench
English
There is widespread optimism that frontier Large Language Models (LLMs) and
LLM-augmented systems have the potential to rapidly accelerate scientific
discovery across disciplines. Today, many benchmarks exist to measure LLM
knowledge and reasoning on textbook-style science questions, but few if any
benchmarks are designed to evaluate language model performance on practical
tasks required for scientific research, such as literature search, protocol
planning, and data analysis. As a step toward building such benchmarks, we
introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of
over 2,400 multiple choice questions for evaluating AI systems on a range of
practical biology research capabilities, including recall and reasoning over
literature, interpretation of figures, access and navigation of databases, and
comprehension and manipulation of DNA and protein sequences. Importantly, in
contrast to previous scientific benchmarks, we expect that an AI system that
can achieve consistently high scores on the more difficult LAB-Bench tasks
would serve as a useful assistant for researchers in areas such as literature
search and molecular cloning. As an initial assessment of the emergent
scientific task capabilities of frontier language models, we measure
performance of several against our benchmark and report results compared to
human expert biology researchers. We will continue to update and expand
LAB-Bench over time, and expect it to serve as a useful tool in the development
of automated research systems going forward. A public subset of LAB-Bench is
available for use at the following URL:
https://huggingface.co/datasets/futurehouse/lab-benchSummary
AI-Generated Summary