BABE: Punto de Referencia de la Arena Biológica
BABE: Biology Arena BEnchmark
February 5, 2026
Autores: Junting Zhou, Jin Chen, Linfeng Hao, Denghui Cao, Zheyu Wang, Qiguang Chen, Chaoyou Fu, Jiaze Chen, Yuchen Wu, Ge Zhang, Mingxuan Wang, Wenhao Huang, Tong Yang
cs.AI
Resumen
La rápida evolución de los modelos de lenguaje grande (LLM) ha expandido sus capacidades desde el diálogo básico hasta el razonamiento científico avanzado. Sin embargo, los puntos de referencia existentes en biología a menudo no logran evaluar una habilidad crítica requerida en los investigadores: la capacidad de integrar resultados experimentales con conocimiento contextual para derivar conclusiones significativas. Para abordar esta brecha, presentamos BABE (Biology Arena BEnchmark), un punto de referencia integral diseñado para evaluar las capacidades de razonamiento experimental de los sistemas de IA biológica. BABE está construido de manera única a partir de artículos de investigación revisados por pares y estudios biológicos del mundo real, garantizando que las tareas reflejen la complejidad y naturaleza interdisciplinaria de la investigación científica real. BABE desafía a los modelos a realizar razonamiento causal e inferencia transversal a múltiples escalas. Nuestro punto de referencia proporciona un marco robusto para evaluar qué tan bien los sistemas de IA pueden razonar como científicos en ejercicio, ofreciendo una medida más auténtica de su potencial para contribuir a la investigación biológica.
English
The rapid evolution of large language models (LLMs) has expanded their capabilities from basic dialogue to advanced scientific reasoning. However, existing benchmarks in biology often fail to assess a critical skill required of researchers: the ability to integrate experimental results with contextual knowledge to derive meaningful conclusions. To address this gap, we introduce BABE(Biology Arena BEnchmark), a comprehensive benchmark designed to evaluate the experimental reasoning capabilities of biological AI systems. BABE is uniquely constructed from peer-reviewed research papers and real-world biological studies, ensuring that tasks reflect the complexity and interdisciplinary nature of actual scientific inquiry. BABE challenges models to perform causal reasoning and cross-scale inference. Our benchmark provides a robust framework for assessing how well AI systems can reason like practicing scientists, offering a more authentic measure of their potential to contribute to biological research.