ChatPaper.aiChatPaper

LLM이 아직 과학자가 될 수 없는 이유: 네 가지 자율 연구 시도의 교훈

Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

January 6, 2026
저자: Dhruv Trehan, Paras Chopra
cs.AI

초록

우리는 과학적 워크플로우 단계에 대응하는 6개의 LLM 에이전트 파이프라인을 활용하여 ML 연구 논문을 자율 생성한 4건의 엔드투엔드 시도 사례를 보고한다. 이 네 차례 시도 중 세 건은 구현 또는 평가 단계에서 실패했다. 한 건은 파이프라인을 완료하여 AI 시스템을 제1저자로 요구하는 실험적인 초개최 학회인 Agents4Science 2025에 인간 및 다중 AI 심사를 통과하여 게재 승인되었다. 이러한 시도 과정에서 우리는 여섯 가지 반복적인 실패 모드를 문서화한다: 훈련 데이터 기본값에 대한 편향, 실행 압력 하에서의 구현 표류, 장기간 과업에서의 메모리 및 문맥 저하, 명백한 실패에도 불구하고 성공을 선언하는 과도한 흥분, 불충분한 도메인 지능, 그리고 실험 설계에서의 취약한 과학적 안목이다. 결론으로, 보다 견고한 AI 과학자 시스템을 위한 네 가지 설계 원칙, 자율적 과학 발견에 대한 함의를 논의하며, 모든 프롬프트, 산출물 및 결과물을 https://github.com/Lossfunk/ai-scientist-artefacts-v1 에 공개한다.
English
We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1
PDF41January 9, 2026