Os LLMs podem Gerar Novas Ideias de Pesquisa? Um Estudo Humano em Grande Escala com Mais de 100 Pesquisadores de PNL.
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
September 6, 2024
Autores: Chenglei Si, Diyi Yang, Tatsunori Hashimoto
cs.AI
Resumo
Os avanços recentes em modelos de linguagem grandes (LLMs) têm gerado otimismo sobre seu potencial para acelerar a descoberta científica, com um número crescente de trabalhos propondo agentes de pesquisa que geram e validam autonomamente novas ideias. No entanto, até o momento, nenhuma avaliação demonstrou que sistemas LLM podem dar o primeiro passo de produzir ideias novas e de nível especialista, muito menos executar todo o processo de pesquisa. Abordamos essa questão estabelecendo um design experimental que avalia a geração de ideias de pesquisa, controlando variáveis confundidoras e realizando a primeira comparação direta entre pesquisadores especialistas em PNL e um agente de ideação LLM. Ao recrutar mais de 100 pesquisadores em PNL para escrever ideias novas e realizar revisões cegas das ideias geradas pelo LLM e por humanos, obtemos a primeira conclusão estatisticamente significativa sobre as capacidades atuais dos LLMs para a ideação de pesquisa: descobrimos que as ideias geradas pelo LLM são consideradas mais novas (p < 0,05) do que as ideias de especialistas humanos, embora sejam julgadas ligeiramente menos viáveis. Ao estudar de perto nossos agentes de referência, identificamos problemas em aberto na construção e avaliação de agentes de pesquisa, incluindo falhas na autoavaliação dos LLMs e na falta de diversidade na geração. Por fim, reconhecemos que os julgamentos humanos sobre novidade podem ser difíceis, mesmo para especialistas, e propomos um design de estudo de ponta a ponta que recruta pesquisadores para executar essas ideias em projetos completos, permitindo-nos estudar se esses julgamentos de novidade e viabilidade resultam em diferenças significativas nos resultados da pesquisa.
English
Recent advancements in large language models (LLMs) have sparked optimism
about their potential to accelerate scientific discovery, with a growing number
of works proposing research agents that autonomously generate and validate new
ideas. Despite this, no evaluations have shown that LLM systems can take the
very first step of producing novel, expert-level ideas, let alone perform the
entire research process. We address this by establishing an experimental design
that evaluates research idea generation while controlling for confounders and
performs the first head-to-head comparison between expert NLP researchers and
an LLM ideation agent. By recruiting over 100 NLP researchers to write novel
ideas and blind reviews of both LLM and human ideas, we obtain the first
statistically significant conclusion on current LLM capabilities for research
ideation: we find LLM-generated ideas are judged as more novel (p < 0.05) than
human expert ideas while being judged slightly weaker on feasibility. Studying
our agent baselines closely, we identify open problems in building and
evaluating research agents, including failures of LLM self-evaluation and their
lack of diversity in generation. Finally, we acknowledge that human judgements
of novelty can be difficult, even by experts, and propose an end-to-end study
design which recruits researchers to execute these ideas into full projects,
enabling us to study whether these novelty and feasibility judgements result in
meaningful differences in research outcome.Summary
AI-Generated Summary