ChatPaper.aiChatPaper

InnoGym: Het benchmarken van het innovatiepotentieel van AI-agenten

InnoGym: Benchmarking the Innovation Potential of AI Agents

December 1, 2025
Auteurs: Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

Samenvatting

LLM's en agents hebben indrukwekkende vooruitgang geboekt in codegeneratie, wiskundig redeneren en wetenschappelijke ontdekking. Bestaande benchmarks meten echter voornamelijk de correctheid, waarbij de diversiteit aan methoden achter oplossingen over het hoofd wordt gezien. Echte innovatie hangt niet alleen af van het produceren van correcte antwoorden, maar ook van de originaliteit van de aanpak. Wij presenteren InnoGym, de eerste benchmark en raamwerk die zijn ontworpen om het innovatiepotentieel van AI-agents systematisch te evalueren. InnoGym introduceert twee complementaire metrieken: prestatieverbetering, die de verbetering ten opzichte van de best bekende oplossingen meet, en nieuwheid, die methodologische verschillen met eerdere aanpakken vaststelt. De benchmark omvat 18 zorgvuldig geselecteerde taken uit echte technische en wetenschappelijke domeinen, elk gestandaardiseerd via resourcefiltering, evaluatorvalidatie en oplossingsverzameling. Daarnaast bieden wij iGym, een uniforme uitvoeringsomgeving voor reproduceerbare en langetermijnevaluaties. Uitgebreide experimenten tonen aan dat hoewel sommige agents nieuwe aanpakken produceren, hun gebrek aan robuustheid de prestatieverbetering beperkt. Deze resultaten belichten een belangrijke kloof tussen creativiteit en effectiviteit, wat de noodzaak onderstreept van benchmarks die beide aspecten evalueren.
English
LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two complementary metrics: performance gain, which measures improvement over the best-known solutions, and novelty, which captures methodological differences from prior approaches. The benchmark includes 18 carefully curated tasks from real-world engineering and scientific domains, each standardized through resource filtering, evaluator validation, and solution collection. In addition, we provide iGym, a unified execution environment for reproducible and long-horizon evaluations. Extensive experiments show that while some agents produce novel approaches, their lack of robustness limits performance gains. These results highlight a key gap between creativity and effectiveness, underscoring the need for benchmarks that evaluate both.
PDF281December 4, 2025