CreativeBench: 자기 진화적 과제를 통한 기계 창의성 벤치마킹 및 향상
CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges
March 12, 2026
저자: Zi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang
cs.AI
초록
고품질 사전 학습 데이터의 포화 상태로 인해 연구 초점은 지속적으로 새로운 산출물을 생성할 수 있는 진화 시스템으로 이동했으며, 이는 AlphaEvolve의 성공으로 이어졌습니다. 그러나 이러한 시스템의 발전은 엄격하고 정량적인 평가 방법의 부재로 인해 저해되고 있습니다. 이러한 과제를 해결하기 위해 우리는 고전적인 인지 프레임워크에 기반을 둔 코드 생성 분야의 기계 창의성 평가 벤치마크인 CreativeBench을 소개합니다. CreativeBench-Combo와 CreativeBench-Explore 두 개의 하위 집합으로 구성된 이 벤치마크는 역공학과 자기 대결을 활용한 자동화 파이프라인을 통해 조합적 창의성과 탐험적 창의성을 목표로 합니다. 실행 가능한 코드를 활용함으로써 CreativeBench는 품질과 참신성의 곱으로 정의된 통합 지표를 통해 환각과 창의성을 객관적으로 구분합니다. 최첨단 모델에 대한 우리의 분석은 다음과 같은 뚜렷한 행동 양상을 보여줍니다: (1) 규모 확장은 조합적 창의성을 크게 향상시키지만 탐험에는 한계 수익을 보인다; (2) 더 큰 모델은 '규모에 의한 수렴'을 보이며, 더 정확해지지만 덜 발산하게 된다; (3) 추론 능력은 주로 조합보다는 제약 조건이 있는 탐험에 이점을 제공한다. 마지막으로, 우리는 진화적 탐색 패턴을 내재화하여 기계 창의성을 지속적으로 향상시키는 플러그 앤 플레이 추론 시점 조정 전략인 EvoRePE를 제안합니다.
English
The saturation of high-quality pre-training data has shifted research focus toward evolutionary systems capable of continuously generating novel artifacts, leading to the success of AlphaEvolve. However, the progress of such systems is hindered by the lack of rigorous, quantitative evaluation. To tackle this challenge, we introduce CreativeBench, a benchmark for evaluating machine creativity in code generation, grounded in a classical cognitive framework. Comprising two subsets -- CreativeBench-Combo and CreativeBench-Explore -- the benchmark targets combinatorial and exploratory creativity through an automated pipeline utilizing reverse engineering and self-play. By leveraging executable code, CreativeBench objectively distinguishes creativity from hallucination via a unified metric defined as the product of quality and novelty. Our analysis of state-of-the-art models reveals distinct behaviors: (1) scaling significantly improves combinatorial creativity but yields diminishing returns for exploration; (2) larger models exhibit ``convergence-by-scaling,'' becoming more correct but less divergent; and (3) reasoning capabilities primarily benefit constrained exploration rather than combination. Finally, we propose EvoRePE, a plug-and-play inference-time steering strategy that internalizes evolutionary search patterns to consistently enhance machine creativity.