Kunnen LLM's nieuwe onderzoeksideeën genereren? Een grootschalige menselijke studie met meer dan 100 NLP-onderzoekers.
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
September 6, 2024
Auteurs: Chenglei Si, Diyi Yang, Tatsunori Hashimoto
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen (LLM's) hebben optimisme aangewakkerd over hun potentieel om wetenschappelijke ontdekkingen te versnellen, met een groeiend aantal werken die onderzoeksagenten voorstellen die autonoom nieuwe ideeën genereren en valideren. Ondanks dit hebben nog geen evaluaties aangetoond dat LLM-systemen de allereerste stap kunnen zetten om nieuwe, expertniveau-ideeën te produceren, laat staan het volledige onderzoeksproces uitvoeren. We pakken dit aan door een experimenteel ontwerp op te zetten dat onderzoeksideeën evalueert terwijl confounders worden gecontroleerd en de eerste directe vergelijking uitvoert tussen expert NLP-onderzoekers en een LLM-ideeëngenerator. Door meer dan 100 NLP-onderzoekers te werven om nieuwe ideeën te schrijven en blinde beoordelingen uit te voeren van zowel LLM- als menselijke ideeën, verkrijgen we de eerste statistisch significante conclusie over de huidige mogelijkheden van LLM's voor onderzoeksconceptie: we vinden dat door LLM gegenereerde ideeën als meer nieuw worden beoordeeld (p < 0,05) dan menselijke expertideeën, terwijl ze iets zwakker worden beoordeeld op haalbaarheid. Door onze agent-baselines nauwkeurig te bestuderen, identificeren we open problemen bij het bouwen en evalueren van onderzoeksagenten, inclusief tekortkomingen in zelfevaluatie van LLM's en hun gebrek aan diversiteit in generatie. Tot slot erkennen we dat menselijke beoordelingen van nieuwheid moeilijk kunnen zijn, zelfs door experts, en stellen we een end-to-end onderzoeksontwerp voor waarbij onderzoekers worden geworven om deze ideeën uit te voeren tot volledige projecten, waardoor we kunnen onderzoeken of deze beoordelingen van nieuwheid en haalbaarheid resulteren in betekenisvolle verschillen in onderzoeksresultaten.
English
Recent advancements in large language models (LLMs) have sparked optimism
about their potential to accelerate scientific discovery, with a growing number
of works proposing research agents that autonomously generate and validate new
ideas. Despite this, no evaluations have shown that LLM systems can take the
very first step of producing novel, expert-level ideas, let alone perform the
entire research process. We address this by establishing an experimental design
that evaluates research idea generation while controlling for confounders and
performs the first head-to-head comparison between expert NLP researchers and
an LLM ideation agent. By recruiting over 100 NLP researchers to write novel
ideas and blind reviews of both LLM and human ideas, we obtain the first
statistically significant conclusion on current LLM capabilities for research
ideation: we find LLM-generated ideas are judged as more novel (p < 0.05) than
human expert ideas while being judged slightly weaker on feasibility. Studying
our agent baselines closely, we identify open problems in building and
evaluating research agents, including failures of LLM self-evaluation and their
lack of diversity in generation. Finally, we acknowledge that human judgements
of novelty can be difficult, even by experts, and propose an end-to-end study
design which recruits researchers to execute these ideas into full projects,
enabling us to study whether these novelty and feasibility judgements result in
meaningful differences in research outcome.Summary
AI-Generated Summary