SciDER: Ricercatore Scientifico End-to-end Orientato ai Dati
SciDER: Scientific Data-centric End-to-end Researcher
March 2, 2026
Autori: Ke Lin, Yilin Lu, Shreyas Bhat, Xuehang Guo, Junier Oliva, Qingyun Wang
cs.AI
Abstract
La scoperta scientifica automatizzata con modelli linguistici di grandi dimensioni sta trasformando il ciclo di vita della ricerca dall'ideazione alla sperimentazione, tuttavia gli agenti esistenti faticano a elaborare autonomamente i dati grezzi raccolti dagli esperimenti scientifici. Presentiamo SciDER, un sistema end-to-end incentrato sui dati che automatizza il ciclo di vita della ricerca. A differenza dei framework tradizionali, i nostri agenti specializzati analizzano e processano collaborativamente i dati scientifici grezzi, generano ipotesi e progetti sperimentali basati sulle caratteristiche specifiche dei dati, e scrivono ed eseguono il codice corrispondente. La valutazione su tre benchmark dimostra che SciDER eccelle nella scoperta scientifica specializzata e guidata dai dati, superando gli agenti generici e i modelli all'avanguardia grazie alla sua memoria auto-evolutiva e al ciclo di feedback guidato da critiche. Distribuito come pacchetto Python modulare, forniamo anche pacchetti PyPI facili da usare con un'interfaccia web leggera per accelerare la ricerca autonoma e data-driven, con l'obiettivo di renderlo accessibile a tutti i ricercatori e sviluppatori.
English
Automated scientific discovery with large language models is transforming the research lifecycle from ideation to experimentation, yet existing agents struggle to autonomously process raw data collected from scientific experiments. We introduce SciDER, a data-centric end-to-end system that automates the research lifecycle. Unlike traditional frameworks, our specialized agents collaboratively parse and analyze raw scientific data, generate hypotheses and experimental designs grounded in specific data characteristics, and write and execute corresponding code. Evaluation on three benchmarks shows SciDER excels in specialized data-driven scientific discovery and outperforms general-purpose agents and state-of-the-art models through its self-evolving memory and critic-led feedback loop. Distributed as a modular Python package, we also provide easy-to-use PyPI packages with a lightweight web interface to accelerate autonomous, data-driven research and aim to be accessible to all researchers and developers.