ResearchBench: Оценка возможностей языковых моделей в научных открытиях через декомпозицию задач на основе вдохновения
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
March 27, 2025
Авторы: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали потенциал в оказании помощи научным исследованиям, однако их способность выдвигать качественные исследовательские гипотезы остаётся неизученной из-за отсутствия специализированного бенчмарка. Чтобы устранить этот пробел, мы представляем первый крупномасштабный бенчмарк для оценки LLM, включающий почти полный набор подзадач научного открытия: поиск вдохновения, составление гипотез и их ранжирование. Мы разрабатываем автоматизированную систему, которая извлекает ключевые компоненты — исследовательские вопросы, обзоры литературы, источники вдохновения и гипотезы — из научных статей в 12 дисциплинах, причём точность системы подтверждена экспертной проверкой. Чтобы избежать загрязнения данных, мы сосредоточились исключительно на статьях, опубликованных в 2024 году, что минимизирует их пересечение с данными, использованными для предварительного обучения LLM. Наша оценка показывает, что LLM успешно справляются с поиском вдохновения — задачей, выходящей за пределы их обучающего распределения, что указывает на их способность выявлять новые ассоциации знаний. Это позиционирует LLM как "шахты исследовательских гипотез", способные способствовать автоматизированному научному открытию, генерируя инновационные гипотезы в больших масштабах при минимальном вмешательстве человека.
English
Large language models (LLMs) have demonstrated potential in assisting
scientific research, yet their ability to discover high-quality research
hypotheses remains unexamined due to the lack of a dedicated benchmark. To
address this gap, we introduce the first large-scale benchmark for evaluating
LLMs with a near-sufficient set of sub-tasks of scientific discovery:
inspiration retrieval, hypothesis composition, and hypothesis ranking. We
develop an automated framework that extracts critical components - research
questions, background surveys, inspirations, and hypotheses - from scientific
papers across 12 disciplines, with expert validation confirming its accuracy.
To prevent data contamination, we focus exclusively on papers published in
2024, ensuring minimal overlap with LLM pretraining data. Our evaluation
reveals that LLMs perform well in retrieving inspirations, an
out-of-distribution task, suggesting their ability to surface novel knowledge
associations. This positions LLMs as "research hypothesis mines", capable of
facilitating automated scientific discovery by generating innovative hypotheses
at scale with minimal human intervention.Summary
AI-Generated Summary