InnoGym: Avaliando o Potencial de Inovação de Agentes de IA

Resumo

Os LLMs e Agentes alcançaram progressos impressionantes na geração de código, raciocínio matemático e descoberta científica. No entanto, os benchmarks existentes avaliam principalmente a correção, negligenciando a diversidade de métodos por trás das soluções. A verdadeira inovação depende não apenas da produção de respostas corretas, mas também da originalidade da abordagem. Apresentamos o InnoGym, o primeiro benchmark e framework concebido para avaliar sistematicamente o potencial de inovação de agentes de IA. O InnoGym introduz duas métricas complementares: o ganho de desempenho, que mede a melhoria em relação às soluções mais conhecidas, e a novidade, que captura diferenças metodológicas em relação a abordagens anteriores. O benchmark inclui 18 tarefas criteriosamente selecionadas de domínios científicos e de engenharia do mundo real, cada uma padronizada através de filtragem de recursos, validação do avaliador e recolha de soluções. Além disso, fornecemos o iGym, um ambiente de execução unificado para avaliações reproduzíveis e de longo horizonte. Experiências extensivas mostram que, embora alguns agentes produzam abordagens inovadoras, a sua falta de robustez limita os ganhos de desempenho. Estes resultados destacam uma lacuna fundamental entre criatividade e eficácia, sublinhando a necessidade de benchmarks que avaliem ambas.

English

LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two complementary metrics: performance gain, which measures improvement over the best-known solutions, and novelty, which captures methodological differences from prior approaches. The benchmark includes 18 carefully curated tasks from real-world engineering and scientific domains, each standardized through resource filtering, evaluator validation, and solution collection. In addition, we provide iGym, a unified execution environment for reproducible and long-horizon evaluations. Extensive experiments show that while some agents produce novel approaches, their lack of robustness limits performance gains. These results highlight a key gap between creativity and effectiveness, underscoring the need for benchmarks that evaluate both.

InnoGym: Avaliando o Potencial de Inovação de Agentes de IA

InnoGym: Benchmarking the Innovation Potential of AI Agents

Resumo

Support