SciDER: Wetenschappelijke Data-centrische End-to-end Onderzoeker
SciDER: Scientific Data-centric End-to-end Researcher
March 2, 2026
Auteurs: Ke Lin, Yilin Lu, Shreyas Bhat, Xuehang Guo, Junier Oliva, Qingyun Wang
cs.AI
Samenvatting
Geautomatiseerde wetenschappelijke ontdekking met grote taalmodellen transformeert de onderzoekslevenscyclus van ideeënvorming tot experimentatie, maar bestaande agents worstelen met het autonoom verwerken van ruwe data die uit wetenschappelijke experimenten worden verzameld. Wij introduceren SciDER, een data-centrisch end-to-end systeem dat de onderzoekslevenscyclus automatiseert. In tegenstelling tot traditionele frameworks, parseren en analyseren onze gespecialiseerde agents op collaboratieve wijze ruwe wetenschappelijke data, genereren ze hypothesen en experimentele ontwerpen die zijn gegrondvest in specifieke data-eigenschappen, en schrijven en executeren ze corresponderende code. Evaluatie op drie benchmarks toont aan dat SciDER uitblinkt in gespecialiseerde data-gedreven wetenschappelijke ontdekking en algemene agents en state-of-the-art modellen overtreft dankzij zijn zelf-evoluerend geheugen en criticus-geleide feedbacklus. Gedistribueerd als een modulair Python-pakket, bieden wij ook gebruiksvriendelijke PyPI-pakketten met een lichtgewicht webinterface om autonoom, data-gedreven onderzoek te versnellen en streven wij ernaar dit toegankelijk te maken voor alle onderzoekers en ontwikkelaars.
English
Automated scientific discovery with large language models is transforming the research lifecycle from ideation to experimentation, yet existing agents struggle to autonomously process raw data collected from scientific experiments. We introduce SciDER, a data-centric end-to-end system that automates the research lifecycle. Unlike traditional frameworks, our specialized agents collaboratively parse and analyze raw scientific data, generate hypotheses and experimental designs grounded in specific data characteristics, and write and execute corresponding code. Evaluation on three benchmarks shows SciDER excels in specialized data-driven scientific discovery and outperforms general-purpose agents and state-of-the-art models through its self-evolving memory and critic-led feedback loop. Distributed as a modular Python package, we also provide easy-to-use PyPI packages with a lightweight web interface to accelerate autonomous, data-driven research and aim to be accessible to all researchers and developers.