ChatPaper.aiChatPaper

Pourquoi les LLM ne sont pas encore des scientifiques : Leçons tirées de quatre tentatives de recherche autonome

Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

January 6, 2026
papers.authors: Dhruv Trehan, Paras Chopra
cs.AI

papers.abstract

Nous présentons une étude de cas de quatre tentatives de génération autonome d'articles de recherche en apprentissage automatique à l'aide d'un pipeline de six agents de LLM correspondant aux étapes du processus scientifique. Sur ces quatre tentatives, trois ont échoué lors de la mise en œuvre ou de l'évaluation. Une a complété le pipeline et a été acceptée à Agents4Science 2025, une conférence inaugurale expérimentale qui exigeait que les systèmes d'IA soient premiers auteurs, passant avec succès à la fois l'examen humain et l'examen multi-IA. À partir de ces tentatives, nous documentons six modes d'échec récurrents : le biais envers les valeurs par défaut des données d'entraînement, la dérive de mise en œuvre sous pression d'exécution, la dégradation de la mémoire et du contexte dans les tâches à long terme, la surexaltation qui déclare un succès malgré des échecs évidents, l'intelligence métier insuffisante et le faible discernement scientifique dans la conception expérimentale. Nous concluons en discutant de quatre principes de conception pour des systèmes d'IA-chercheur plus robustes, des implications pour la découverte scientifique autonome, et nous publions tous les prompts, artefacts et résultats à l'adresse https://github.com/Lossfunk/ai-scientist-artefacts-v1.
English
We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1
PDF41January 9, 2026