ChatPaper.aiChatPaper

InnoGym: AIエージェントの革新可能性を評価するベンチマーク

InnoGym: Benchmarking the Innovation Potential of AI Agents

December 1, 2025
著者: Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

要旨

大規模言語モデル(LLM)とエージェントは、コード生成、数学的推論、科学発見の分野で目覚ましい進歩を遂げています。しかし、既存のベンチマークは主に正しさを測定するものであり、解決策背後にある手法の多様性を見落としています。真の革新性は、正しい答えを生み出すことだけでなく、アプローチの独創性にも依存します。本論文では、AIエージェントの革新可能性を体系的に評価する初のベンチマーク兼フレームワークであるInnoGymを提案します。InnoGynは二つの相補的指標を導入します。一つは既知の最良解法に対する改善度を測る「性能向上率」、もう一つは従来手法との方法論的差異を捕捉する「新規性」です。本ベンチマークには、現実の工学分野と科学分野から厳選された18の課題が含まれており、各課題はリソースフィルタリング、評価指標検証、解決策収集を通じて標準化されています。さらに、再現性のある長期的評価を可能にする統合実行環境「iGym」を提供します。大規模実験により、一部のエージェントが新規アプローチを生み出す一方で、頑健性の欠如が性能向上を制限していることが明らかになりました。これらの結果は、創造性と有効性の間に存在する重要な隔たりを浮き彫りにし、両方を評価するベンチマークの必要性を強調しています。
English
LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two complementary metrics: performance gain, which measures improvement over the best-known solutions, and novelty, which captures methodological differences from prior approaches. The benchmark includes 18 carefully curated tasks from real-world engineering and scientific domains, each standardized through resource filtering, evaluator validation, and solution collection. In addition, we provide iGym, a unified execution environment for reproducible and long-horizon evaluations. Extensive experiments show that while some agents produce novel approaches, their lack of robustness limits performance gains. These results highlight a key gap between creativity and effectiveness, underscoring the need for benchmarks that evaluate both.
PDF281December 4, 2025