BABE: 生物学アリーナベンチマーク
BABE: Biology Arena BEnchmark
February 5, 2026
著者: Junting Zhou, Jin Chen, Linfeng Hao, Denghui Cao, Zheyu Wang, Qiguang Chen, Chaoyou Fu, Jiaze Chen, Yuchen Wu, Ge Zhang, Mingxuan Wang, Wenhao Huang, Tong Yang
cs.AI
要旨
大規模言語モデル(LLM)の急速な進化により、その能力は基本的な対話から高度な科学的推論へと拡大している。しかし、生物学における既存のベンチマークは、研究者に求められる重要なスキル、すなわち実験結果と文脈的知識を統合して意味のある結論を導き出す能力を評価し損ねることが多い。このギャップを埋めるため、我々は生物AIシステムの実験的推論能力を評価する包括的ベンチマーク「BABE(Biology Arena BEnchmark)」を提案する。BABEは査読付き研究論文と実世界の生物学的研究から独自に構築されており、課題が実際の科学探求の複雑さと学際性を反映することを保証する。BABEはモデルに対し、因果推論と複数スケールにわたる推論の実行を求める。本ベンチマークは、AIシステムが実践科学者と同様の推論をどの程度うまく行えるかを評価する堅牢な枠組みを提供し、生物学研究への貢献可能性をより真に迫った形で測定するものである。
English
The rapid evolution of large language models (LLMs) has expanded their capabilities from basic dialogue to advanced scientific reasoning. However, existing benchmarks in biology often fail to assess a critical skill required of researchers: the ability to integrate experimental results with contextual knowledge to derive meaningful conclusions. To address this gap, we introduce BABE(Biology Arena BEnchmark), a comprehensive benchmark designed to evaluate the experimental reasoning capabilities of biological AI systems. BABE is uniquely constructed from peer-reviewed research papers and real-world biological studies, ensuring that tasks reflect the complexity and interdisciplinary nature of actual scientific inquiry. BABE challenges models to perform causal reasoning and cross-scale inference. Our benchmark provides a robust framework for assessing how well AI systems can reason like practicing scientists, offering a more authentic measure of their potential to contribute to biological research.