ChatPaper.aiChatPaper

InnoGym : Évaluation du potentiel d'innovation des agents d'IA

InnoGym: Benchmarking the Innovation Potential of AI Agents

December 1, 2025
papers.authors: Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

papers.abstract

Les modèles de langage étendus (LLMs) et les agents ont réalisé des progrès remarquables en génération de code, raisonnement mathématique et découverte scientifique. Cependant, les benchmarks existants mesurent principalement l'exactitude, négligeant la diversité des méthodes sous-jacentes aux solutions. La véritable innovation dépend non seulement de la production de réponses correctes, mais aussi de l'originalité de l'approche. Nous présentons InnoGym, le premier benchmark et cadre conçu pour évaluer systématiquement le potentiel d'innovation des agents IA. InnoGym introduit deux métriques complémentaires : le gain de performance, qui mesure l'amélioration par rapport aux solutions les plus connues, et la nouveauté, qui capture les différences méthodologiques par rapport aux approches antérieures. Le benchmark comprend 18 tâches soigneusement sélectionnées dans des domaines scientifiques et d'ingénierie réels, chacune standardisée via un filtrage des ressources, une validation par évaluateurs et une collecte de solutions. De plus, nous fournissons iGym, un environnement d'exécution unifié pour des évaluations reproductibles et à long terme. Des expériences approfondies montrent que si certains agents produisent des approches novatrices, leur manque de robustesse limite les gains de performance. Ces résultats mettent en lumière un écart crucial entre créativité et efficacité, soulignant la nécessité de benchmarks évaluant ces deux aspects.
English
LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two complementary metrics: performance gain, which measures improvement over the best-known solutions, and novelty, which captures methodological differences from prior approaches. The benchmark includes 18 carefully curated tasks from real-world engineering and scientific domains, each standardized through resource filtering, evaluator validation, and solution collection. In addition, we provide iGym, a unified execution environment for reproducible and long-horizon evaluations. Extensive experiments show that while some agents produce novel approaches, their lack of robustness limits performance gains. These results highlight a key gap between creativity and effectiveness, underscoring the need for benchmarks that evaluate both.
PDF281December 4, 2025