Junior KI-Wissenschaftler und sein Risikobericht: Autonome wissenschaftliche Erkundung ausgehend von einem Grundlagenpapier
Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper
November 6, 2025
papers.authors: Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa
cs.AI
papers.abstract
Das Verständnis der aktuellen Fähigkeiten und Risiken von KI-Wissenschaftler-Systemen ist entscheidend, um vertrauenswürdigen und nachhaltigen, KI-gesteuerten wissenschaftlichen Fortschritt zu gewährleisten und gleichzeitig die Integrität des akademischen Ökosystems zu bewahren. Zu diesem Zweck entwickeln wir Jr. KI-Wissenschaftler, ein modernes autonomes KI-Wissenschaftler-System, das den Kernforschungsprozess eines Nachwuchsforschers nachahmt: Ausgehend von einem Grundlagenpapier eines menschlichen Mentors analysiert es dessen Grenzen, formuliert neuartige Verbesserungshypothesen, validiert diese durch rigorose Experimente und verfasst eine Publikation mit den Ergebnissen. Im Gegensatz zu früheren Ansätzen, die von Vollautomatisierung ausgehen oder auf kleinem Code-Maßstab operieren, folgt Jr. KI-Wissenschaftler einem klar definierten Forschungsablauf und nutzt moderne Code-Agenten, um komplexe, mehrdateienbasierte Implementierungen zu bewältigen, was zu wissenschaftlich wertvollen Beiträgen führt. Für die Evaluation führten wir automatisierte Bewertungen mit KI-Gutachtern durch, autor:innengeführte Evaluationen und Einreichungen bei Agents4Science, einer Plattform für KI-gesteuerte wissenschaftliche Beiträge. Die Ergebnisse zeigen, dass Jr. KI-Wissenschaftler Publikationen generiert, die höhere Bewertungen erhalten als bestehende vollautomatisierte Systeme. Dennoch identifizieren wir bedeutende Grenzen sowohl in der Autorenbewertung als auch in den Agents4Science-Gutachten, die auf die potenziellen Risiken der direkten Anwendung aktueller KI-Wissenschaftler-Systeme und zentrale Herausforderungen für die zukünftige Forschung hinweisen. Abschließend berichten wir umfassend über verschiedene während der Entwicklung identifizierte Risiken. Wir hoffen, dass diese Erkenntnisse das Verständnis für den aktuellen Stand und die Risiken in der Entwicklung von KI-Wissenschaftlern vertiefen.
English
Understanding the current capabilities and risks of AI Scientist systems is
essential for ensuring trustworthy and sustainable AI-driven scientific
progress while preserving the integrity of the academic ecosystem. To this end,
we develop Jr. AI Scientist, a state-of-the-art autonomous AI scientist system
that mimics the core research workflow of a novice student researcher: Given
the baseline paper from the human mentor, it analyzes its limitations,
formulates novel hypotheses for improvement, validates them through rigorous
experimentation, and writes a paper with the results. Unlike previous
approaches that assume full automation or operate on small-scale code, Jr. AI
Scientist follows a well-defined research workflow and leverages modern coding
agents to handle complex, multi-file implementations, leading to scientifically
valuable contributions. For evaluation, we conducted automated assessments
using AI Reviewers, author-led evaluations, and submissions to Agents4Science,
a venue dedicated to AI-driven scientific contributions. The findings
demonstrate that Jr. AI Scientist generates papers receiving higher review
scores than existing fully automated systems. Nevertheless, we identify
important limitations from both the author evaluation and the Agents4Science
reviews, indicating the potential risks of directly applying current AI
Scientist systems and key challenges for future research. Finally, we
comprehensively report various risks identified during development. We hope
these insights will deepen understanding of current progress and risks in AI
Scientist development.