ChatPaper.aiChatPaper

Могут ли LLMs генерировать новые исследовательские идеи? Масштабное исследование с участием 100+ исследователей в области обработки естественного языка.

Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

September 6, 2024
Авторы: Chenglei Si, Diyi Yang, Tatsunori Hashimoto
cs.AI

Аннотация

Недавние достижения в области крупных языковых моделей (КЯМ) вызвали оптимизм относительно их потенциала ускорить научные открытия, с растущим числом работ, предлагающих исследовательских агентов, которые автономно генерируют и проверяют новые идеи. Тем не менее, ни одна из оценок не показала, что системы КЯМ могут сделать первый шаг в создании новых идей на уровне эксперта, не говоря уже о выполнении всего исследовательского процесса. Мы решаем эту проблему, установив экспериментальное проектирование, которое оценивает генерацию идей для исследований, контролируя факторы помех и проводя первое прямое сравнение между экспертами-исследователями в области обработки естественного языка и агентом генерации идей на основе КЯМ. Рекрутируя более 100 исследователей в области обработки естественного языка для написания новых идей и проведения слепых рецензий как на идеи, сгенерированные КЯМ, так и на идеи, созданные людьми, мы получаем первое статистически значимое заключение о текущих возможностях КЯМ в области генерации идей для исследований: мы обнаруживаем, что идеи, сгенерированные КЯМ, оцениваются как более новаторские (p < 0.05), чем идеи экспертов, хотя их оценивают немного слабее с точки зрения осуществимости. Изучая наши базовые агенты внимательно, мы выявляем открытые проблемы в создании и оценке исследовательских агентов, включая неудачи самооценки КЯМ и их недостаток разнообразия в генерации. Наконец, мы признаем, что человеческие оценки новизны могут быть сложными, даже для экспертов, и предлагаем дизайн исследования "от начала до конца", который рекрутирует исследователей для реализации этих идей в полноценные проекты, что позволит нам изучить, приводят ли эти оценки новизны и осуществимости к существенным различиям в результате исследования.
English
Recent advancements in large language models (LLMs) have sparked optimism about their potential to accelerate scientific discovery, with a growing number of works proposing research agents that autonomously generate and validate new ideas. Despite this, no evaluations have shown that LLM systems can take the very first step of producing novel, expert-level ideas, let alone perform the entire research process. We address this by establishing an experimental design that evaluates research idea generation while controlling for confounders and performs the first head-to-head comparison between expert NLP researchers and an LLM ideation agent. By recruiting over 100 NLP researchers to write novel ideas and blind reviews of both LLM and human ideas, we obtain the first statistically significant conclusion on current LLM capabilities for research ideation: we find LLM-generated ideas are judged as more novel (p < 0.05) than human expert ideas while being judged slightly weaker on feasibility. Studying our agent baselines closely, we identify open problems in building and evaluating research agents, including failures of LLM self-evaluation and their lack of diversity in generation. Finally, we acknowledge that human judgements of novelty can be difficult, even by experts, and propose an end-to-end study design which recruits researchers to execute these ideas into full projects, enabling us to study whether these novelty and feasibility judgements result in meaningful differences in research outcome.

Summary

AI-Generated Summary

PDF483November 16, 2024