ChatPaper.aiChatPaper

InnoGym: Benchmarking des Innovationspotenzials von KI-Agenten

InnoGym: Benchmarking the Innovation Potential of AI Agents

December 1, 2025
papers.authors: Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

papers.abstract

LLMs und Agenten haben beeindruckende Fortschritte in der Code-Generierung, mathematischem Denken und wissenschaftlicher Entdeckung erzielt. Allerdings messen bestehende Benchmarks hauptsächlich die Korrektheit und übersehen dabei die Vielfalt der Methoden hinter Lösungen. Wahre Innovation hängt nicht nur davon ab, korrekte Antworten zu produzieren, sondern auch von der Originalität des Ansatzes. Wir stellen InnoGym vor, den ersten Benchmark und Rahmen, der entwickelt wurde, um das Innovationspotenzial von KI-Agenten systematisch zu bewerten. InnoGym führt zwei komplementäre Metriken ein: die Leistungssteigerung, die die Verbesserung gegenüber den besten bekannten Lösungen misst, und die Neuartigkeit, die methodische Unterschiede zu früheren Ansätzen erfasst. Der Benchmark umfasst 18 sorgfältig zusammengestellte Aufgaben aus realen Ingenieur- und Wissenschaftsbereichen, die jeweils durch Ressourcenfilterung, Evaluierungsvalidierung und Lösungs-Sammlung standardisiert wurden. Zusätzlich bieten wir iGym, eine einheitliche Ausführungsumgebung für reproduzierbare und langfristige Bewertungen. Umfangreiche Experimente zeigen, dass zwar einige Agenten neuartige Ansätze produzieren, deren mangelnde Robustheit jedoch die Leistungssteigerung begrenzt. Diese Ergebnisse verdeutlichen eine wesentliche Lücke zwischen Kreativität und Effektivität und unterstreichen die Notwendigkeit von Benchmarks, die beide Aspekte bewerten.
English
LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two complementary metrics: performance gain, which measures improvement over the best-known solutions, and novelty, which captures methodological differences from prior approaches. The benchmark includes 18 carefully curated tasks from real-world engineering and scientific domains, each standardized through resource filtering, evaluator validation, and solution collection. In addition, we provide iGym, a unified execution environment for reproducible and long-horizon evaluations. Extensive experiments show that while some agents produce novel approaches, their lack of robustness limits performance gains. These results highlight a key gap between creativity and effectiveness, underscoring the need for benchmarks that evaluate both.
PDF281December 4, 2025