ChatPaper.aiChatPaper

Почему большие языковые модели еще не ученые: уроки четырех попыток автономных исследований

Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

January 6, 2026
Авторы: Dhruv Trehan, Paras Chopra
cs.AI

Аннотация

Мы представляем кейс-стади четырех сквозных попыток автономной генерации научных статей по машинному обучению с использованием конвейера из шести LLM-агентов, соответствующих этапам научного workflow. Из четырех попыток три завершились неудачей на стадии реализации или оценки. Одна попытка прошла весь конвейер и была принята на конференцию Agents4Science 2025 — экспериментальную площадку, требующую указания ИИ-систем в качестве первых авторов, — пройдя как человеческое, так и мультиагентное ИИ-рецензирование. На основе этих попыток мы фиксируем шесть повторяющихся режимов сбоя: смещение в сторону стандартных решений из обучающих данных, дрейф реализации под давлением исполнения, деградация памяти и контекста в длительных задачах, чрезмерная уверенность, объявляющая успех вопреки очевидным провалам, недостаточная предметная компетентность и слабое научное чутьё в планировании экспериментов. В заключение мы обсуждаем четыре принципа проектирования для более устойчивых систем-учёных на основе ИИ, их значение для автономных научных открытий и публикуем все промпты, артефакты и результаты по адресу https://github.com/Lossfunk/ai-scientist-artefacts-v1.
English
We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1
PDF41January 9, 2026