Les LLM peuvent-ils générer des idées de recherche novatrices ? Une étude humaine à grande échelle avec plus de 100 chercheurs en TAL.
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
September 6, 2024
Auteurs: Chenglei Si, Diyi Yang, Tatsunori Hashimoto
cs.AI
Résumé
Les récentes avancées dans les grands modèles de langage (GML) ont suscité de l'optimisme quant à leur potentiel pour accélérer la découverte scientifique, avec un nombre croissant d'œuvres proposant des agents de recherche qui génèrent et valident de manière autonome de nouvelles idées. Malgré cela, aucune évaluation n'a montré que les systèmes GML peuvent franchir le tout premier pas de la production d'idées nouvelles de niveau expert, encore moins réaliser l'ensemble du processus de recherche. Nous abordons cette question en établissant une conception expérimentale qui évalue la génération d'idées de recherche tout en contrôlant les variables parasites et en réalisant la première comparaison directe entre des chercheurs experts en TAL et un agent d'idéation GML. En recrutant plus de 100 chercheurs en TAL pour rédiger des idées nouvelles et des évaluations à l'aveugle des idées générées par les GML et les humains, nous obtenons la première conclusion statistiquement significative sur les capacités actuelles des GML en matière d'idéation de recherche : nous constatons que les idées générées par les GML sont jugées comme étant plus nouvelles (p < 0,05) que les idées d'experts humains tout en étant jugées légèrement moins réalisables. En étudiant de près nos bases d'agents, nous identifions des problèmes ouverts dans la construction et l'évaluation des agents de recherche, y compris les échecs d'auto-évaluation des GML et leur manque de diversité dans la génération. Enfin, nous reconnaissons que les jugements humains sur la nouveauté peuvent être difficiles, même pour des experts, et proposons une conception d'étude de bout en bout qui recrute des chercheurs pour concrétiser ces idées en projets complets, nous permettant d'étudier si ces jugements de nouveauté et de faisabilité entraînent des différences significatives dans les résultats de recherche.
English
Recent advancements in large language models (LLMs) have sparked optimism
about their potential to accelerate scientific discovery, with a growing number
of works proposing research agents that autonomously generate and validate new
ideas. Despite this, no evaluations have shown that LLM systems can take the
very first step of producing novel, expert-level ideas, let alone perform the
entire research process. We address this by establishing an experimental design
that evaluates research idea generation while controlling for confounders and
performs the first head-to-head comparison between expert NLP researchers and
an LLM ideation agent. By recruiting over 100 NLP researchers to write novel
ideas and blind reviews of both LLM and human ideas, we obtain the first
statistically significant conclusion on current LLM capabilities for research
ideation: we find LLM-generated ideas are judged as more novel (p < 0.05) than
human expert ideas while being judged slightly weaker on feasibility. Studying
our agent baselines closely, we identify open problems in building and
evaluating research agents, including failures of LLM self-evaluation and their
lack of diversity in generation. Finally, we acknowledge that human judgements
of novelty can be difficult, even by experts, and propose an end-to-end study
design which recruits researchers to execute these ideas into full projects,
enabling us to study whether these novelty and feasibility judgements result in
meaningful differences in research outcome.Summary
AI-Generated Summary