ChatPaper.aiChatPaper

BABE: 생물학 아레나 벤치마크

BABE: Biology Arena BEnchmark

February 5, 2026
저자: Junting Zhou, Jin Chen, Linfeng Hao, Denghui Cao, Zheyu Wang, Qiguang Chen, Chaoyou Fu, Jiaze Chen, Yuchen Wu, Ge Zhang, Mingxuan Wang, Wenhao Huang, Tong Yang
cs.AI

초록

대규모 언어 모델(LLM)의 급속한 발전으로 기본적인 대화에서 고급 과학적 추론에 이르는 능력이 확대되고 있습니다. 그러나 생물학 분야의 기존 벤치마크는 연구자에게 요구되는 핵심 능력인 실험 결과와 맥락적 지식을 통합하여 의미 있는 결론을 도출하는 능력을 평가하지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해 우리는 생물학 AI 시스템의 실험적 추론 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 BABE(Biology Arena BEnchmark)를 소개합니다. BABE는 동료 검토 연구 논문과 실제 생물학 연구를 바탕으로 독특하게 구성되어 과업이 실제 과학적 탐구의 복잡성과 학제적 성격을 반영하도록 합니다. BABE는 모델이 인과 관계 추론 및 교차 규모 추론을 수행하도록 요구합니다. 우리의 벤치마크는 AI 시스템이 현장 과학자처럼 추론하는 능력을 얼마나 잘 수행하는지 평가하는 강력한 프레임워크를 제공하며, 생물학 연구에 기여할 수 있는 잠재력을 보다 진정성 있게 측정합니다.
English
The rapid evolution of large language models (LLMs) has expanded their capabilities from basic dialogue to advanced scientific reasoning. However, existing benchmarks in biology often fail to assess a critical skill required of researchers: the ability to integrate experimental results with contextual knowledge to derive meaningful conclusions. To address this gap, we introduce BABE(Biology Arena BEnchmark), a comprehensive benchmark designed to evaluate the experimental reasoning capabilities of biological AI systems. BABE is uniquely constructed from peer-reviewed research papers and real-world biological studies, ensuring that tasks reflect the complexity and interdisciplinary nature of actual scientific inquiry. BABE challenges models to perform causal reasoning and cross-scale inference. Our benchmark provides a robust framework for assessing how well AI systems can reason like practicing scientists, offering a more authentic measure of their potential to contribute to biological research.
PDF63February 7, 2026