Por que os LLMs Ainda Não São Cientistas: Lições de Quatro Tentativas de Pesquisa Autônoma

Resumo

Relatamos um estudo de caso de quatro tentativas de geração autônoma de artigos de pesquisa em ML (aprendizado de máquina) de ponta a ponta, utilizando um *pipeline* de seis agentes de LLM mapeados para as etapas do fluxo de trabalho científico. Dessas quatro tentativas, três falharam durante a implementação ou avaliação. Uma completou o *pipeline* e foi aceita para o Agents4Science 2025, um evento experimental inaugural que exigia sistemas de IA como primeiros autores, passando por revisão tanto humana quanto por múltiplas IAs. A partir dessas tentativas, documentamos seis modos de falha recorrentes: viés em direção aos padrões dos dados de treinamento, desvio de implementação sob pressão de execução, degradação de memória e contexto em tarefas de longo horizonte, superentusiasmo que declara sucesso apesar de falhas óbvias, inteligência de domínio insuficiente e senso científico fraco no desenho experimental. Concluímos discutindo quatro princípios de projeto para sistemas de IA-cientista mais robustos, as implicações para a descoberta científica autônoma, e disponibilizamos todos os *prompts*, artefatos e saídas em https://github.com/Lossfunk/ai-scientist-artefacts-v1.

English

We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1