Perché i LLM non sono ancora scienziati: lezioni da quattro tentativi di ricerca autonoma
Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts
January 6, 2026
Autori: Dhruv Trehan, Paras Chopra
cs.AI
Abstract
Riportiamo uno studio di caso su quattro tentativi end-to-end di generare autonomamente articoli di ricerca sul machine learning utilizzando una pipeline di sei agenti LLM mappati sulle fasi del workflow scientifico. Di questi quattro tentativi, tre sono falliti durante l'implementazione o la valutazione. Uno ha completato l'intera pipeline ed è stato accettato ad Agents4Science 2025, una sede inaugurale sperimentale che richiedeva sistemi di IA come primi autori, superando sia la revisione umana che quella multi-IA. Da questi tentativi, documentiamo sei modalità di fallimento ricorrenti: l'adesione ai valori predefiniti dei dati di addestramento, lo scostamento implementativo sotto pressione esecutiva, il degrado della memoria e del contesto nei compiti a lungo termine, l'entusiasmo eccessivo che dichiara il successo nonostante fallimenti evidenti, l'intelligenza di dominio insufficiente e il debole gusto scientifico nella progettazione sperimentale. Concludiamo discutendo quattro principi di progettazione per sistemi di IA-scienziato più robusti, le implicazioni per la scoperta scientifica autonoma, e rendiamo disponibili tutti i prompt, gli artefatti e gli output su https://github.com/Lossfunk/ai-scientist-artefacts-v1.
English
We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1