InnoGym: Valutare il Potenziale Innovativo degli Agenti di Intelligenza Artificiale
InnoGym: Benchmarking the Innovation Potential of AI Agents
December 1, 2025
Autori: Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) e gli agenti hanno ottenuto progressi significativi nella generazione di codice, nel ragionamento matematico e nella scoperta scientifica. Tuttavia, i benchmark esistenti misurano principalmente la correttezza, tralasciando la diversità dei metodi alla base delle soluzioni. La vera innovazione dipende non solo dalla produzione di risposte corrette, ma anche dall'originalità dell'approccio. Presentiamo InnoGym, il primo benchmark e framework progettato per valutare sistematicamente il potenziale innovativo degli agenti di intelligenza artificiale. InnoGym introduce due metriche complementari: il guadagno di prestazione, che misura il miglioramento rispetto alle soluzioni più note, e la novità, che cattura le differenze metodologiche rispetto agli approcci precedenti. Il benchmark include 18 task accuratamente selezionati da domini ingegneristici e scientifici del mondo reale, ciascuno standardizzato attraverso filtraggio delle risorse, validazione dei valutatori e raccolta di soluzioni. Inoltre, forniamo iGym, un ambiente di esecuzione unificato per valutazioni riproducibili e a lungo termine. Esperimenti estensivi dimostrano che, sebbene alcuni agenti producano approcci innovativi, la loro mancanza di robustezza ne limita il guadagno prestazionale. Questi risultati evidenziano un divario cruciale tra creatività ed efficacia, sottolineando la necessità di benchmark che valutino entrambi gli aspetti.
English
LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two complementary metrics: performance gain, which measures improvement over the best-known solutions, and novelty, which captures methodological differences from prior approaches. The benchmark includes 18 carefully curated tasks from real-world engineering and scientific domains, each standardized through resource filtering, evaluator validation, and solution collection. In addition, we provide iGym, a unified execution environment for reproducible and long-horizon evaluations. Extensive experiments show that while some agents produce novel approaches, their lack of robustness limits performance gains. These results highlight a key gap between creativity and effectiveness, underscoring the need for benchmarks that evaluate both.