ResearchBench: Evaluación de Modelos de Lenguaje de Gran Escala en el Descubrimiento Científico mediante Descomposición de Tareas Basada en Inspiración
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
March 27, 2025
Autores: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado potencial para asistir en la investigación científica, aunque su capacidad para descubrir hipótesis de investigación de alta calidad sigue sin examinarse debido a la falta de un punto de referencia dedicado. Para abordar esta brecha, presentamos el primer punto de referencia a gran escala para evaluar LLMs con un conjunto casi suficiente de sub-tareas de descubrimiento científico: recuperación de inspiración, composición de hipótesis y clasificación de hipótesis. Desarrollamos un marco automatizado que extrae componentes críticos —preguntas de investigación, revisiones de antecedentes, inspiraciones e hipótesis— de artículos científicos en 12 disciplinas, con validación experta que confirma su precisión. Para evitar la contaminación de datos, nos enfocamos exclusivamente en artículos publicados en 2024, asegurando una superposición mínima con los datos de preentrenamiento de los LLMs. Nuestra evaluación revela que los LLMs tienen un buen desempeño en la recuperación de inspiraciones, una tarea fuera de distribución, lo que sugiere su capacidad para resaltar asociaciones de conocimiento novedosas. Esto posiciona a los LLMs como "minas de hipótesis de investigación", capaces de facilitar el descubrimiento científico automatizado al generar hipótesis innovadoras a gran escala con una intervención humana mínima.
English
Large language models (LLMs) have demonstrated potential in assisting
scientific research, yet their ability to discover high-quality research
hypotheses remains unexamined due to the lack of a dedicated benchmark. To
address this gap, we introduce the first large-scale benchmark for evaluating
LLMs with a near-sufficient set of sub-tasks of scientific discovery:
inspiration retrieval, hypothesis composition, and hypothesis ranking. We
develop an automated framework that extracts critical components - research
questions, background surveys, inspirations, and hypotheses - from scientific
papers across 12 disciplines, with expert validation confirming its accuracy.
To prevent data contamination, we focus exclusively on papers published in
2024, ensuring minimal overlap with LLM pretraining data. Our evaluation
reveals that LLMs perform well in retrieving inspirations, an
out-of-distribution task, suggesting their ability to surface novel knowledge
associations. This positions LLMs as "research hypothesis mines", capable of
facilitating automated scientific discovery by generating innovative hypotheses
at scale with minimal human intervention.Summary
AI-Generated Summary