¿Pueden los LLMs generar ideas de investigación novedosas? Un estudio humano a gran escala con más de 100 investigadores en PNL.
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
September 6, 2024
Autores: Chenglei Si, Diyi Yang, Tatsunori Hashimoto
cs.AI
Resumen
Los avances recientes en modelos de lenguaje grandes (LLMs) han generado optimismo sobre su potencial para acelerar el descubrimiento científico, con un número creciente de trabajos que proponen agentes de investigación que generan y validan nuevas ideas de forma autónoma. A pesar de esto, no se han realizado evaluaciones que demuestren que los sistemas LLM pueden dar el primer paso de producir ideas novedosas a nivel experto, y mucho menos llevar a cabo todo el proceso de investigación. Abordamos esto estableciendo un diseño experimental que evalúa la generación de ideas de investigación controlando posibles factores de confusión y realizando la primera comparación directa entre investigadores expertos en procesamiento de lenguaje natural y un agente de ideación LLM. Al reclutar a más de 100 investigadores en procesamiento de lenguaje natural para escribir ideas novedosas y realizar revisiones ciegas de las ideas tanto del LLM como de los humanos, obtenemos la primera conclusión estadísticamente significativa sobre las capacidades actuales de los LLM para la ideación de investigación: encontramos que las ideas generadas por el LLM son consideradas más novedosas (p < 0.05) que las ideas de expertos humanos, aunque se consideran ligeramente menos factibles. Al estudiar detenidamente nuestros agentes de referencia, identificamos problemas abiertos en la construcción y evaluación de agentes de investigación, incluidos los fallos en la autoevaluación de los LLM y su falta de diversidad en la generación. Finalmente, reconocemos que las valoraciones humanas de la novedad pueden ser difíciles, incluso para expertos, y proponemos un diseño de estudio de extremo a extremo que recluta a investigadores para llevar a cabo estas ideas en proyectos completos, lo que nos permite estudiar si estas valoraciones de novedad y factibilidad resultan en diferencias significativas en los resultados de investigación.
English
Recent advancements in large language models (LLMs) have sparked optimism
about their potential to accelerate scientific discovery, with a growing number
of works proposing research agents that autonomously generate and validate new
ideas. Despite this, no evaluations have shown that LLM systems can take the
very first step of producing novel, expert-level ideas, let alone perform the
entire research process. We address this by establishing an experimental design
that evaluates research idea generation while controlling for confounders and
performs the first head-to-head comparison between expert NLP researchers and
an LLM ideation agent. By recruiting over 100 NLP researchers to write novel
ideas and blind reviews of both LLM and human ideas, we obtain the first
statistically significant conclusion on current LLM capabilities for research
ideation: we find LLM-generated ideas are judged as more novel (p < 0.05) than
human expert ideas while being judged slightly weaker on feasibility. Studying
our agent baselines closely, we identify open problems in building and
evaluating research agents, including failures of LLM self-evaluation and their
lack of diversity in generation. Finally, we acknowledge that human judgements
of novelty can be difficult, even by experts, and propose an end-to-end study
design which recruits researchers to execute these ideas into full projects,
enabling us to study whether these novelty and feasibility judgements result in
meaningful differences in research outcome.Summary
AI-Generated Summary