Могут ли большие языковые модели разблокировать новые научные исследовательские идеи?

Аннотация

"Идея представляет собой не что иное, как новое сочетание старых элементов" (Young, J.W.). Широкое распространение Больших Языковых Моделей (LLM) и общедоступного ChatGPT отметило значительный поворот в интеграции Искусственного Интеллекта (ИИ) в повседневную жизнь людей. В данном исследовании исследуется способность LLM в генерации новых исследовательских идей на основе информации из научных статей. Мы провели тщательное исследование 4 LLM в пяти областях (например, Химия, Компьютер, Экономика, Медицина и Физика). Мы обнаружили, что будущие исследовательские идеи, сгенерированные Claude-2 и GPT-4, более соответствуют точке зрения автора, чем у GPT-3.5 и Gemini. Мы также обнаружили, что Claude-2 генерирует более разнообразные будущие исследовательские идеи, чем GPT-4, GPT-3.5 и Gemini 1.0. Далее мы провели оценку человеком новизны, актуальности и осуществимости сгенерированных будущих исследовательских идей. Это исследование предлагает понимание развивающейся роли LLM в генерации идей, выделяя как его способности, так и ограничения. Наша работа вносит вклад в текущие усилия по оценке и использованию языковых моделей для генерации будущих исследовательских идей. Мы делаем наши наборы данных и коды общедоступными.

English

"An idea is nothing more nor less than a new combination of old elements" (Young, J.W.). The widespread adoption of Large Language Models (LLMs) and publicly available ChatGPT have marked a significant turning point in the integration of Artificial Intelligence (AI) into people's everyday lives. This study explores the capability of LLMs in generating novel research ideas based on information from research papers. We conduct a thorough examination of 4 LLMs in five domains (e.g., Chemistry, Computer, Economics, Medical, and Physics). We found that the future research ideas generated by Claude-2 and GPT-4 are more aligned with the author's perspective than GPT-3.5 and Gemini. We also found that Claude-2 generates more diverse future research ideas than GPT-4, GPT-3.5, and Gemini 1.0. We further performed a human evaluation of the novelty, relevancy, and feasibility of the generated future research ideas. This investigation offers insights into the evolving role of LLMs in idea generation, highlighting both its capability and limitations. Our work contributes to the ongoing efforts in evaluating and utilizing language models for generating future research ideas. We make our datasets and codes publicly available.

Могут ли большие языковые модели разблокировать новые научные исследовательские идеи?

Can Large Language Models Unlock Novel Scientific Research Ideas?

Аннотация

Support