ChatPaper.aiChatPaper

InnoGym: Бенчмаркинг инновационного потенциала ИИ-агентов

InnoGym: Benchmarking the Innovation Potential of AI Agents

December 1, 2025
Авторы: Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

Аннотация

Крупные языковые модели и агенты достигли значительных успехов в генерации кода, математических рассуждениях и научных открытиях. Однако существующие бенчмарки в основном оценивают корректность результатов, игнорируя разнообразие методов, лежащих в основе решений. Истинные инновации зависят не только от получения верных ответов, но и от оригинальности подхода. Мы представляем InnoGym — первый бенчмарк и фреймворк, предназначенный для систематической оценки инновационного потенциала ИИ-агентов. InnoGym вводит две взаимодополняющие метрики: прирост производительности, измеряющий улучшение по сравнению с наилучшими известными решениями, и новизну, фиксирующую методологические отличия от предыдущих подходов. Бенчмарк включает 18 тщательно отобранных задач из реальных инженерных и научных областей, каждая из которых стандартизирована посредством фильтрации ресурсов, валидации оценщиков и сбора решений. Кроме того, мы предоставляем iGym — унифицированную среду исполнения для воспроизводимых и долгосрочных оценок. Масштабные эксперименты показывают, что хотя некоторые агенты генерируют новые подходы, их недостаточная устойчивость ограничивает прирост производительности. Эти результаты выявляют ключевой разрыв между креативностью и эффективностью, подчеркивая необходимость бенчмарков, оценивающих оба аспекта.
English
LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two complementary metrics: performance gain, which measures improvement over the best-known solutions, and novelty, which captures methodological differences from prior approaches. The benchmark includes 18 carefully curated tasks from real-world engineering and scientific domains, each standardized through resource filtering, evaluator validation, and solution collection. In addition, we provide iGym, a unified execution environment for reproducible and long-horizon evaluations. Extensive experiments show that while some agents produce novel approaches, their lack of robustness limits performance gains. These results highlight a key gap between creativity and effectiveness, underscoring the need for benchmarks that evaluate both.
PDF281December 4, 2025