SciDER: Wissenschaftlicher datenzentrierter End-to-End-Forscher
SciDER: Scientific Data-centric End-to-end Researcher
March 2, 2026
Autoren: Ke Lin, Yilin Lu, Shreyas Bhat, Xuehang Guo, Junier Oliva, Qingyun Wang
cs.AI
Zusammenfassung
Automatisierte wissenschaftliche Entdeckung mit großen Sprachmodellen transformiert den Forschungszyklus von der Ideenfindung bis zur Experimentierung, doch bestehende Agenten haben Schwierigkeiten, Rohdaten aus wissenschaftlichen Experimenten autonom zu verarbeiten. Wir stellen SciDER vor, ein datenzentrisches End-to-End-System, das den Forschungszyklus automatisiert. Im Gegensatz zu traditionellen Frameworks analysieren unsere spezialisierten Agenten kollaborativ wissenschaftliche Rohdaten, generieren Hypothesen und experimentelle Designs auf Grundlage spezifischer Datencharakteristiken und schreiben sowie executieren entsprechenden Code. Evaluierungen auf drei Benchmarks zeigen, dass SciDER in spezialisierter datengetriebener wissenschaftlicher Entdeckung exzelliert und generalistische Agenten sowie State-of-the-Art-Modelle durch seinen selbstentwickelnden Speicher und kritikgesteuerte Feedbackschleifen übertrifft. Als modulares Python-Paket verteilt, bieten wir zudem benutzerfreundliche PyPI-Pakete mit einer schlanken Web-Oberfläche an, um autonome, datengetriebene Forschung zu beschleunigen und sie allen Forschern und Entwicklern zugänglich zu machen.
English
Automated scientific discovery with large language models is transforming the research lifecycle from ideation to experimentation, yet existing agents struggle to autonomously process raw data collected from scientific experiments. We introduce SciDER, a data-centric end-to-end system that automates the research lifecycle. Unlike traditional frameworks, our specialized agents collaboratively parse and analyze raw scientific data, generate hypotheses and experimental designs grounded in specific data characteristics, and write and execute corresponding code. Evaluation on three benchmarks shows SciDER excels in specialized data-driven scientific discovery and outperforms general-purpose agents and state-of-the-art models through its self-evolving memory and critic-led feedback loop. Distributed as a modular Python package, we also provide easy-to-use PyPI packages with a lightweight web interface to accelerate autonomous, data-driven research and aim to be accessible to all researchers and developers.