SciDER: 과학 데이터 중심 종단간 연구자
SciDER: Scientific Data-centric End-to-end Researcher
March 2, 2026
저자: Ke Lin, Yilin Lu, Shreyas Bhat, Xuehang Guo, Junier Oliva, Qingyun Wang
cs.AI
초록
대규모 언어 모델을 활용한 자동화된 과학적 발견은 아이디어 구상부터 실험에 이르기까지 연구 생명주기를 혁신하고 있지만, 기존 에이전트는 과학 실험에서 수집된 원시 데이터를 자율적으로 처리하는 데 한계를 보입니다. 본 연구에서는 연구 생명주기를 자동화하는 데이터 중심의 종단간 시스템인 SciDER를 소개합니다. 기존 프레임워크와 달리, 당사의 전문화된 에이전트들은 협력적으로 원시 과학 데이터를 구문 분석 및 분석하고, 특정 데이터 특성에 기반한 가설과 실험 설계를 생성하며, 이에 상응하는 코드를 작성하고 실행합니다. 3가지 벤치마크에서의 평가 결과, SciDER는 전문화된 데이터 기반 과학 발견 분야에서 탁월한 성능을 보이며, 자체 진화 메모리와 비평가 주도 피드백 루프를 통해 범용 에이전트 및 최첨단 모델을 능가하는 것으로 나타났습니다. 모듈식 Python 패키지로 배포되는 SciDER는 가벼운 웹 인터페이스와 함께 사용하기 쉬운 PyPI 패키지를 제공하여 자율적이고 데이터 중심의 연구를 가속화하며, 모든 연구자와 개발자가 접근할 수 있도록 하는 것을 목표로 합니다.
English
Automated scientific discovery with large language models is transforming the research lifecycle from ideation to experimentation, yet existing agents struggle to autonomously process raw data collected from scientific experiments. We introduce SciDER, a data-centric end-to-end system that automates the research lifecycle. Unlike traditional frameworks, our specialized agents collaboratively parse and analyze raw scientific data, generate hypotheses and experimental designs grounded in specific data characteristics, and write and execute corresponding code. Evaluation on three benchmarks shows SciDER excels in specialized data-driven scientific discovery and outperforms general-purpose agents and state-of-the-art models through its self-evolving memory and critic-led feedback loop. Distributed as a modular Python package, we also provide easy-to-use PyPI packages with a lightweight web interface to accelerate autonomous, data-driven research and aim to be accessible to all researchers and developers.