Grandes Modelos de Linguagem para Geração de Ideias Científicas: Um Estudo Centrado na Criatividade

Resumo

A geração de ideias científicas está no cerne da descoberta científica e tem impulsionado o progresso humano — seja resolvendo problemas não solucionados ou propondo novas hipóteses para explicar fenômenos desconhecidos. Ao contrário do raciocínio científico padrão ou da geração criativa geral, a geração de ideias na ciência é uma tarefa de múltiplos objetivos e de natureza aberta, na qual a novidade de uma contribuição é tão essencial quanto sua solidez empírica. Os grandes modelos de linguagem (LLMs) emergiram recentemente como geradores promissores de ideias científicas, capazes de produzir resultados coerentes e factuais com intuição surpreendente e raciocínio aceitável, mas sua capacidade criativa permanece inconsistente e pouco compreendida. Esta revisão fornece uma síntese estruturada dos métodos para a ideação científica impulsionada por LLMs, examinando como diferentes abordagens equilibram criatividade com rigor científico. Categorizamos os métodos existentes em cinco famílias complementares: Aumento de conhecimento externo, Direcionamento distribucional baseado em *prompts*, Escalonamento no momento da inferência, Colaboração multiagente e Adaptação a nível de parâmetros. Para interpretar suas contribuições, empregamos dois quadros complementares: a taxonomia de Boden da criatividade Combinatória, Exploratória e Transformacional para caracterizar o nível de ideias que cada família espera gerar, e o quadro 4Ps de Rhodes — Pessoa, Processo, Pressão e Produto — para localizar o aspeto ou fonte de criatividade que cada método enfatiza. Ao alinhar os avanços metodológicos com os quadros de criatividade, esta revisão esclarece o estado da arte e delineia direções-chave para aplicações confiáveis, sistemáticas e transformadoras dos LLMs na descoberta científica.

English

Scientific idea generation lies at the heart of scientific discovery and has driven human progress-whether by solving unsolved problems or proposing novel hypotheses to explain unknown phenomena. Unlike standard scientific reasoning or general creative generation, idea generation in science is a multi-objective and open-ended task, where the novelty of a contribution is as essential as its empirical soundness. Large language models (LLMs) have recently emerged as promising generators of scientific ideas, capable of producing coherent and factual outputs with surprising intuition and acceptable reasoning, yet their creative capacity remains inconsistent and poorly understood. This survey provides a structured synthesis of methods for LLM-driven scientific ideation, examining how different approaches balance creativity with scientific soundness. We categorize existing methods into five complementary families: External knowledge augmentation, Prompt-based distributional steering, Inference-time scaling, Multi-agent collaboration, and Parameter-level adaptation. To interpret their contributions, we employ two complementary frameworks: Boden's taxonomy of Combinatorial, Exploratory and Transformational creativity to characterize the level of ideas each family expected to generate, and Rhodes' 4Ps framework-Person, Process, Press, and Product-to locate the aspect or source of creativity that each method emphasizes. By aligning methodological advances with creativity frameworks, this survey clarifies the state of the field and outlines key directions toward reliable, systematic, and transformative applications of LLMs in scientific discovery.