ChatPaper.aiChatPaper

Warum LLMs noch keine Wissenschaftler sind: Lehren aus vier Versuchen autonomer Forschung

Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

January 6, 2026
papers.authors: Dhruv Trehan, Paras Chopra
cs.AI

papers.abstract

Wir berichten über eine Fallstudie von vier End-to-End-Versuchen, ML-Forschungspapiere autonom mittels einer Pipeline von sechs LLM-Agenten zu generieren, die den Stufen des wissenschaftlichen Arbeitsablaufs zugeordnet sind. Von diesen vier Versuchen scheiterten drei während der Implementierung oder Evaluation. Einer durchlief die Pipeline erfolgreich, wurde bei Agents4Science 2025 – einem experimentellen Erstveranstaltungsformat, das KI-Systeme als Erstautoren vorschrieb – angenommen und bestand sowohl die menschliche als auch die multi-KI-basierte Begutachtung. Aus diesen Versuchen dokumentieren wir sechs wiederkehrende Fehlermodi: Bias hin zu Standardwerten der Trainingsdaten, Implementierungsdrift unter Ausführungsdruck, Abbau von Gedächtnis und Kontext bei langfristigen Aufgaben, übermäßige Begeisterung, die trotz offensichtlicher Fehler Erfolg meldet, unzureichende Domänenintelligenz und schwache wissenschaftliche Urteilsfähigkeit im experimentellen Design. Abschließend diskutieren wir vier Designprinzipien für robustere KI-Wissenschaftler-Systeme, die Implikationen für autonome wissenschaftliche Entdeckungen und veröffentlichen alle Prompts, Artefakte und Outputs unter https://github.com/Lossfunk/ai-scientist-artefacts-v1.
English
We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1
PDF41January 9, 2026