과학 아이디어 생성을 위한 대규모 언어 모델: 창의성 중심 조사
Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey
November 5, 2025
저자: Fatemeh Shahhosseini, Arash Marioriyad, Ali Momen, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban, Shaghayegh Haghjooy Javanmard
cs.AI
초록
과학적 아이디어 생성은 과학적 발견의 핵심에 있으며, 해결되지 않은 문제를 풀거나 알려지지 않은 현상을 설명하기 위한 새로운 가설을 제안함으로써 인간의 진보를 이끌어왔습니다. 표준적인 과학적 추론이나 일반적인 창의적 생성과 달리, 과학에서의 아이디어 생성은 다중 목표를 가지며 개방형 과제로서, 기여의 신규성은 경험적 타당성만큼 중요합니다. 대규모 언어 모델(LLM)은 최근 놀라운 직관과 수용 가능한 추론으로 일관적이고 사실적인 결과를 생산할 수 있는 유망한 과학적 아이디어 생성기로 부상했으나, 그 창의적 능력은 여전히 불일치하며 제대로 이해되지 않고 있습니다. 본 종설은 LLM 기반 과학적 아이덴테이션 방법론을 구조적으로 종합하여 다양한 접근법이 창의성과 과학적 타당성을 어떻게 균형 있게 조절하는지 검토합니다. 우리는 기존 방법론을 상호 보완적인 다섯 가지 패밀리로 분류합니다: 외부 지식 증강, 프롬프트 기반 분포 조정, 추론 시점 스케일링, 다중 에이전트 협업, 그리고 매개변수 수준 적응. 이들의 기여를 해석하기 위해 우리는 두 가지 상보적인 프레임워크를 활용합니다: 각 패밀리가 생성할 것으로 기대되는 아이디어의 수준을 규정하기 위한 Boden의 조합적, 탐험적, 변혁적 창의성 분류법, 그리고 각 방법이 강조하는 창의성의 측면이나 원천을 파악하기 위한 Rhodes의 4P(개인, 과정, 환경, 결과) 프레임워크입니다. 방법론적 발전과 창의성 프레임워크를 연계함으로써, 본 종설은 해당 분야의 현황을 명확히 하고 과학적 발견에서 LLM의 신뢰할 수 있고 체계적이며 변혁적인 적용을 위한 주요 방향을 제시합니다.
English
Scientific idea generation lies at the heart of scientific discovery and has driven human progress-whether by solving unsolved problems or proposing novel hypotheses to explain unknown phenomena. Unlike standard scientific reasoning or general creative generation, idea generation in science is a multi-objective and open-ended task, where the novelty of a contribution is as essential as its empirical soundness. Large language models (LLMs) have recently emerged as promising generators of scientific ideas, capable of producing coherent and factual outputs with surprising intuition and acceptable reasoning, yet their creative capacity remains inconsistent and poorly understood. This survey provides a structured synthesis of methods for LLM-driven scientific ideation, examining how different approaches balance creativity with scientific soundness. We categorize existing methods into five complementary families: External knowledge augmentation, Prompt-based distributional steering, Inference-time scaling, Multi-agent collaboration, and Parameter-level adaptation. To interpret their contributions, we employ two complementary frameworks: Boden's taxonomy of Combinatorial, Exploratory and Transformational creativity to characterize the level of ideas each family expected to generate, and Rhodes' 4Ps framework-Person, Process, Press, and Product-to locate the aspect or source of creativity that each method emphasizes. By aligning methodological advances with creativity frameworks, this survey clarifies the state of the field and outlines key directions toward reliable, systematic, and transformative applications of LLMs in scientific discovery.