Les grands modèles de langage peuvent-ils débloquer de nouvelles idées de recherche scientifique ?
Can Large Language Models Unlock Novel Scientific Research Ideas?
September 10, 2024
Auteurs: Sandeep Kumar, Tirthankar Ghosal, Vinayak Goyal, Asif Ekbal
cs.AI
Résumé
"Une idée n'est rien de plus ni de moins qu'une nouvelle combinaison d'anciens éléments" (Young, J.W.). L'adoption généralisée des Grands Modèles de Langage (GML) et du ChatGPT disponible publiquement a marqué un tournant significatif dans l'intégration de l'Intelligence Artificielle (IA) dans la vie quotidienne des gens. Cette étude explore la capacité des GML à générer de nouvelles idées de recherche basées sur des informations provenant d'articles de recherche. Nous menons un examen approfondi de 4 GML dans cinq domaines (par exemple, Chimie, Informatique, Économie, Médical et Physique). Nous avons constaté que les idées de recherche futures générées par Claude-2 et GPT-4 sont plus alignées sur la perspective de l'auteur que celles de GPT-3.5 et Gemini. Nous avons également observé que Claude-2 génère des idées de recherche futures plus diverses que GPT-4, GPT-3.5 et Gemini 1.0. Nous avons ensuite réalisé une évaluation humaine de la nouveauté, de la pertinence et de la faisabilité des idées de recherche futures générées. Cette étude offre des perspectives sur le rôle évolutif des GML dans la génération d'idées, mettant en lumière à la fois ses capacités et ses limites. Notre travail contribue aux efforts en cours d'évaluation et d'utilisation des modèles de langage pour la génération d'idées de recherche futures. Nous mettons nos ensembles de données et codes à disposition du public.
English
"An idea is nothing more nor less than a new combination of old elements"
(Young, J.W.). The widespread adoption of Large Language Models (LLMs) and
publicly available ChatGPT have marked a significant turning point in the
integration of Artificial Intelligence (AI) into people's everyday lives. This
study explores the capability of LLMs in generating novel research ideas based
on information from research papers. We conduct a thorough examination of 4
LLMs in five domains (e.g., Chemistry, Computer, Economics, Medical, and
Physics). We found that the future research ideas generated by Claude-2 and
GPT-4 are more aligned with the author's perspective than GPT-3.5 and Gemini.
We also found that Claude-2 generates more diverse future research ideas than
GPT-4, GPT-3.5, and Gemini 1.0. We further performed a human evaluation of the
novelty, relevancy, and feasibility of the generated future research ideas.
This investigation offers insights into the evolving role of LLMs in idea
generation, highlighting both its capability and limitations. Our work
contributes to the ongoing efforts in evaluating and utilizing language models
for generating future research ideas. We make our datasets and codes publicly
available.Summary
AI-Generated Summary