SciDER : Chercheur scientifique de bout en bout axé sur les données
SciDER: Scientific Data-centric End-to-end Researcher
March 2, 2026
Auteurs: Ke Lin, Yilin Lu, Shreyas Bhat, Xuehang Guo, Junier Oliva, Qingyun Wang
cs.AI
Résumé
La découverte scientifique automatisée avec les grands modèles de langage transforme le cycle de vie de la recherche, de l'idéation à l'expérimentation, mais les agents existants peinent à traiter de manière autonome les données brutes collectées lors d'expériences scientifiques. Nous présentons SciDER, un système de bout en bout axé sur les données qui automatise le cycle de vie de la recherche. Contrairement aux cadres traditionnels, nos agents spécialisés analysent et traitent collaborativement les données scientifiques brutes, génèrent des hypothèses et des plans expérimentaux fondés sur les caractéristiques spécifiques des données, puis rédigent et exécutent le code correspondant. L'évaluation sur trois benchmarks démontre que SciDER excelle dans la découverte scientifique spécialisée pilotée par les données et surpasse les agents généralistes ainsi que les modèles de l'état de l'art grâce à sa mémoire auto-évolutive et sa boucle de rétroaction dirigée par un critique. Distribué sous forme de package Python modulaire, nous fournissons également des packages PyPI faciles à utiliser avec une interface web légère pour accélérer la recherche autonome et axée sur les données, visant à être accessible à tous les chercheurs et développeurs.
English
Automated scientific discovery with large language models is transforming the research lifecycle from ideation to experimentation, yet existing agents struggle to autonomously process raw data collected from scientific experiments. We introduce SciDER, a data-centric end-to-end system that automates the research lifecycle. Unlike traditional frameworks, our specialized agents collaboratively parse and analyze raw scientific data, generate hypotheses and experimental designs grounded in specific data characteristics, and write and execute corresponding code. Evaluation on three benchmarks shows SciDER excels in specialized data-driven scientific discovery and outperforms general-purpose agents and state-of-the-art models through its self-evolving memory and critic-led feedback loop. Distributed as a modular Python package, we also provide easy-to-use PyPI packages with a lightweight web interface to accelerate autonomous, data-driven research and aim to be accessible to all researchers and developers.