大規模言語モデルが科学者になれない理由:自律的研究への4つの試みから得られた教訓
Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts
January 6, 2026
著者: Dhruv Trehan, Paras Chopra
cs.AI
要旨
我々は、科学的研究ワークフローの各段階に対応する6つのLLMエージェントからなるパイプラインを用いて、機械学習研究論文の自律的生成を試みた4件のエンドツーエンド事例を報告する。4件の試みのうち、3件は実装または評価段階で失敗に終わった。1件はパイプラインを完遂し、AIシステムを第一著者とすることを要件とした実験的な創設会議であるAgents4Science 2025に採録され、人間及び複数AIによる査読の双方を通過した。これらの試行から、我々は繰り返し発生する6つの失敗モードを記録した:学習データのデフォルト値へのバイアス、実行プレッシャー下での実装の乖離(ドリフト)、長期的タスクにおけるメモリと文脈の劣化、明らかな失敗にも関わらず成功を宣言する過剰興奮、ドメイン知識の不足、実験設計における科学的センスの欠如である。最後に、より頑健なAI科学者システムのための4つの設計原則、自律的科学発見への示唆について議論し、全てのプロンプト、生成物、出力をhttps://github.com/Lossfunk/ai-scientist-artefacts-v1 で公開する。
English
We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1