SciDER: Научный исследовательский инструмент с сквозной обработкой данных
SciDER: Scientific Data-centric End-to-end Researcher
March 2, 2026
Авторы: Ke Lin, Yilin Lu, Shreyas Bhat, Xuehang Guo, Junier Oliva, Qingyun Wang
cs.AI
Аннотация
Автоматизированное научное открытие с помощью больших языковых моделей трансформирует жизненный цикл исследований от генерации идей до проведения экспериментов, однако существующие агенты не способны автономно обрабатывать необработанные данные, собранные в ходе научных экспериментов. Мы представляем SciDER, ориентированную на данные сквозную систему, автоматизирующую жизненный цикл исследований. В отличие от традиционных фреймворков, наши специализированные агенты совместно анализируют и интерпретируют необработанные научные данные, генерируют гипотезы и планы экспериментов, основанные на специфических характеристиках данных, а также пишут и исполняют соответствующий код. Оценка на трех тестовых наборах показывает, что SciDER превосходит в специализированном data-driven научном открытии, обходя агенты общего назначения и передовые модели благодаря саморазвивающейся памяти и циклу обратной связи под управлением критикующего модуля. Распространяемая в виде модульного пакета Python, система также включает удобные пакеты PyPI с облегченным веб-интерфейсом для ускорения автономных data-driven исследований и нацелена на доступность для всех исследователей и разработчиков.
English
Automated scientific discovery with large language models is transforming the research lifecycle from ideation to experimentation, yet existing agents struggle to autonomously process raw data collected from scientific experiments. We introduce SciDER, a data-centric end-to-end system that automates the research lifecycle. Unlike traditional frameworks, our specialized agents collaboratively parse and analyze raw scientific data, generate hypotheses and experimental designs grounded in specific data characteristics, and write and execute corresponding code. Evaluation on three benchmarks shows SciDER excels in specialized data-driven scientific discovery and outperforms general-purpose agents and state-of-the-art models through its self-evolving memory and critic-led feedback loop. Distributed as a modular Python package, we also provide easy-to-use PyPI packages with a lightweight web interface to accelerate autonomous, data-driven research and aim to be accessible to all researchers and developers.