CreativeBench : Évaluation et amélioration de la créativité des machines par des défis auto-évolutifs

Résumé

La saturation des données de pré-entraînement de haute qualité a déplacé l'attention de la recherche vers des systèmes évolutionnaires capables de générer continuellement de nouveaux artefacts, conduisant au succès d'AlphaEvolve. Cependant, les progrès de tels systèmes sont entravés par l'absence d'évaluation quantitative rigoureuse. Pour relever ce défi, nous présentons CreativeBench, un benchmark pour évaluer la créativité des machines dans la génération de code, fondé sur un cadre cognitif classique. Composé de deux sous-ensembles – CreativeBench-Combo et CreativeBench-Explore – ce benchmark cible la créativité combinatoire et exploratoire via un pipeline automatisé utilisant la rétro-ingénierie et l'auto-jeu. En tirant parti de code exécutable, CreativeBench distingue objectivement la créativité de l'hallucination via une métrique unifiée définie comme le produit de la qualité et de la nouveauté. Notre analyse des modèles de pointe révèle des comportements distincts : (1) la mise à l'échelle améliore significativement la créativité combinatoire mais présente des rendements décroissants pour l'exploration ; (2) les modèles plus grands présentent une « convergence par mise à l'échelle », devenant plus corrects mais moins divergents ; et (3) les capacités de raisonnement profitent principalement à l'exploration contrainte plutôt qu'à la combinaison. Enfin, nous proposons EvoRePE, une stratégie de pilotage plug-and-play au moment de l'inférence qui internalise les motifs de recherche évolutionnaire pour améliorer constamment la créativité des machines.

English

The saturation of high-quality pre-training data has shifted research focus toward evolutionary systems capable of continuously generating novel artifacts, leading to the success of AlphaEvolve. However, the progress of such systems is hindered by the lack of rigorous, quantitative evaluation. To tackle this challenge, we introduce CreativeBench, a benchmark for evaluating machine creativity in code generation, grounded in a classical cognitive framework. Comprising two subsets -- CreativeBench-Combo and CreativeBench-Explore -- the benchmark targets combinatorial and exploratory creativity through an automated pipeline utilizing reverse engineering and self-play. By leveraging executable code, CreativeBench objectively distinguishes creativity from hallucination via a unified metric defined as the product of quality and novelty. Our analysis of state-of-the-art models reveals distinct behaviors: (1) scaling significantly improves combinatorial creativity but yields diminishing returns for exploration; (2) larger models exhibit ``convergence-by-scaling,'' becoming more correct but less divergent; and (3) reasoning capabilities primarily benefit constrained exploration rather than combination. Finally, we propose EvoRePE, a plug-and-play inference-time steering strategy that internalizes evolutionary search patterns to consistently enhance machine creativity.

CreativeBench : Évaluation et amélioration de la créativité des machines par des défis auto-évolutifs

CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Résumé

Support