ChatPaper.aiChatPaper

Possono i LLM generare nuove idee di ricerca? Uno studio umano su larga scala con oltre 100 ricercatori di NLP.

Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

September 6, 2024
Autori: Chenglei Si, Diyi Yang, Tatsunori Hashimoto
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno suscitato ottimismo sul loro potenziale di accelerare la scoperta scientifica, con un numero crescente di lavori che propongono agenti di ricerca in grado di generare e convalidare autonomamente nuove idee. Tuttavia, nessuna valutazione ha dimostrato che i sistemi LLM possano compiere il primo passo di produrre idee nuove di livello esperto, figuriamoci svolgere l'intero processo di ricerca. Affrontiamo questo problema stabilendo un design sperimentale che valuta la generazione di idee di ricerca controllando i confonditori e realizzando il primo confronto diretto tra ricercatori esperti in NLP e un agente di ideazione LLM. Recrutando oltre 100 ricercatori NLP per scrivere idee innovative e recensendo in cieco sia le idee LLM che quelle umane, otteniamo la prima conclusione statisticamente significativa sulle attuali capacità LLM per l'ideazione di ricerca: scopriamo che le idee generate dal LLM sono giudicate più innovative (p < 0.05) rispetto alle idee esperte umane, sebbene vengano giudicate leggermente meno realistiche. Studiando da vicino i nostri agenti di base, identifichiamo problemi aperti nella costruzione e valutazione degli agenti di ricerca, inclusi i fallimenti dell'autovalutazione del LLM e la loro mancanza di diversità nella generazione. Infine, riconosciamo che i giudizi umani sulla novità possono essere difficili, anche per gli esperti, e proponiamo un design di studio end-to-end che recluta ricercatori per realizzare queste idee in progetti completi, consentendoci di studiare se questi giudizi di novità e fattibilità comportino differenze significative nei risultati della ricerca.
English
Recent advancements in large language models (LLMs) have sparked optimism about their potential to accelerate scientific discovery, with a growing number of works proposing research agents that autonomously generate and validate new ideas. Despite this, no evaluations have shown that LLM systems can take the very first step of producing novel, expert-level ideas, let alone perform the entire research process. We address this by establishing an experimental design that evaluates research idea generation while controlling for confounders and performs the first head-to-head comparison between expert NLP researchers and an LLM ideation agent. By recruiting over 100 NLP researchers to write novel ideas and blind reviews of both LLM and human ideas, we obtain the first statistically significant conclusion on current LLM capabilities for research ideation: we find LLM-generated ideas are judged as more novel (p < 0.05) than human expert ideas while being judged slightly weaker on feasibility. Studying our agent baselines closely, we identify open problems in building and evaluating research agents, including failures of LLM self-evaluation and their lack of diversity in generation. Finally, we acknowledge that human judgements of novelty can be difficult, even by experts, and propose an end-to-end study design which recruits researchers to execute these ideas into full projects, enabling us to study whether these novelty and feasibility judgements result in meaningful differences in research outcome.

Summary

AI-Generated Summary

PDF483November 16, 2024