ChatPaper.aiChatPaper

Waarom LLM's nog geen wetenschappers zijn: lessen uit vier pogingen tot autonoom onderzoek

Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

January 6, 2026
Auteurs: Dhruv Trehan, Paras Chopra
cs.AI

Samenvatting

Wij presenteren een casestudy van vier end-to-end pogingen om autonoom ML-onderzoeksartikelen te genereren met behulp van een pijplijn van zes LLM-agents, gemodelleerd naar de fasen van de wetenschappelijke workflow. Van deze vier pogingen mislukten er drie tijdens de implementatie of evaluatie. Eén poging voltooide de pijplijn met succes; dit artikel werd geaccepteerd voor Agents4Science 2025, een experimenteel inaugureel evenement dat AI-systemen als eerste auteur vereiste, en slaagde zowel voor menselijke als multi-AI-beoordeling. Uit deze pogingen destilleren wij zes terugkerende faalmodi: een neiging tot standaardinstellingen uit de trainingsdata, implementatiedrift onder uitvoeringsdruk, geheugen- en contextdegradatie bij langetermijntaken, overenthousiasme dat succes declareert ondanks duidelijke mislukkingen, onvoldoende domeinintelligentie en zwakke wetenschappelijke smaak in experimenteel ontwerp. Wij sluiten af met een bespreking van vier ontwerpprincipes voor robuustere AI-wetenschappers, de implicaties voor autonome wetenschappelijke ontdekking, en maken alle prompts, artefacten en outputs openbaar op https://github.com/Lossfunk/ai-scientist-artefacts-v1.
English
We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1
PDF41January 9, 2026