InnoGym: Evaluación del Potencial de Innovación de los Agentes de IA
InnoGym: Benchmarking the Innovation Potential of AI Agents
December 1, 2025
Autores: Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI
Resumen
Los LLM y los agentes han logrado avances impresionantes en generación de código, razonamiento matemático y descubrimiento científico. Sin embargo, los benchmarks existentes miden principalmente la corrección, pasando por alto la diversidad de métodos detrás de las soluciones. La verdadera innovación no solo depende de producir respuestas correctas, sino también de la originalidad del enfoque. Presentamos InnoGym, el primer benchmark y marco de trabajo diseñado para evaluar sistemáticamente el potencial de innovación de los agentes de IA. InnoGym introduce dos métricas complementarias: la ganancia de rendimiento, que mide la mejora respecto a las mejores soluciones conocidas, y la novedad, que captura las diferencias metodológicas con respecto a enfoques anteriores. El benchmark incluye 18 tareas cuidadosamente seleccionadas de dominios científicos y de ingeniería del mundo real, cada una estandarizada mediante filtrado de recursos, validación del evaluador y recopilación de soluciones. Además, proporcionamos iGym, un entorno de ejecución unificado para evaluaciones reproducibles y de largo horizonte. Experimentos exhaustivos muestran que, aunque algunos agentes producen enfoques novedosos, su falta de robustez limita las ganancias de rendimiento. Estos resultados destacan una brecha clave entre la creatividad y la efectividad, subrayando la necesidad de benchmarks que evalúen ambos aspectos.
English
LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two complementary metrics: performance gain, which measures improvement over the best-known solutions, and novelty, which captures methodological differences from prior approaches. The benchmark includes 18 carefully curated tasks from real-world engineering and scientific domains, each standardized through resource filtering, evaluator validation, and solution collection. In addition, we provide iGym, a unified execution environment for reproducible and long-horizon evaluations. Extensive experiments show that while some agents produce novel approaches, their lack of robustness limits performance gains. These results highlight a key gap between creativity and effectiveness, underscoring the need for benchmarks that evaluate both.