Por qué los LLM aún no son científicos: Lecciones de cuatro intentos de investigación autónoma
Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts
January 6, 2026
Autores: Dhruv Trehan, Paras Chopra
cs.AI
Resumen
Reportamos un estudio de caso de cuatro intentos de generar autónomamente artículos de investigación en *machine learning* (ML) mediante una canalización de seis agentes de LLM asignados a las etapas del flujo de trabajo científico. De estos cuatro intentos, tres fracasaron durante la implementación o la evaluación. Uno completó la canalización y fue aceptado en Agents4Science 2025, un foro inaugural experimental que exigía que los sistemas de IA figuraran como primeros autores, superando tanto la revisión humana como la revisión múltiple por IA. A partir de estos intentos, documentamos seis modos de fallo recurrentes: sesgo hacia los valores por defecto de los datos de entrenamiento, deriva en la implementación bajo presión de ejecución, degradación de la memoria y del contexto en tareas de largo horizonte, sobreexcitación que declara el éxito a pesar de fallos obvios, inteligencia de dominio insuficiente y criterio científico deficiente en el diseño experimental. Concluimos discutiendo cuatro principios de diseño para sistemas de IA-científico más robustos, las implicaciones para el descubrimiento científico autónomo, y publicamos todos los *prompts*, artefactos y resultados en https://github.com/Lossfunk/ai-scientist-artefacts-v1.
English
We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1