테스트 타임 진화 탐색을 통한 이미지 및 비디오 생성의 확장
Scaling Image and Video Generation via Test-Time Evolutionary Search
May 23, 2025
저자: Haoran He, Jiajun Liang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Ling Pan
cs.AI
초록
모델 사전 학습 단계에서 계산(데이터 및 파라미터) 확장의 한계 비용이 지속적으로 크게 증가함에 따라, 테스트 시간 확장(TTS)은 추론 시 추가적인 계산을 할당함으로써 생성 모델의 성능을 향상시키는 유망한 방향으로 부상했습니다. TTS는 여러 언어 작업에서 상당한 성공을 거두었지만, 이미지 및 비디오 생성 모델(확산 기반 또는 흐름 기반 모델)의 테스트 시간 확장 행동에 대한 이해는 여전히 상당한 격차가 있습니다. 최근 연구들이 비전 작업을 위한 추론 시간 전략 탐색을 시작했지만, 이러한 접근법들은 작업 특정 도메인에 제한되거나 확장성이 낮거나, 샘플 다양성을 희생시키는 보상 과최적화에 빠지는 등의 중요한 한계를 가지고 있습니다. 본 논문에서는 추가적인 학습이나 모델 확장 없이도 확산 및 흐름 모델 모두에서 이미지 및 비디오 생성의 확장성을 효과적으로 향상시키는 새로운, 일반적이며 효율적인 TTS 방법인 Evolutionary Search(EvoSearch)를 제안합니다. EvoSearch는 확산 및 흐름 모델을 위한 테스트 시간 확장을 생물학적 진화의 원리를 활용하여 효율적으로 탐색하고 개선하는 진화 탐색 문제로 재구성합니다. 확률적 미분 방정식 노이즈 제거 프로세스에 맞춰 설계된 선택 및 변이 메커니즘을 통합함으로써, EvoSearch는 인구 다양성을 유지하면서 더 높은 품질의 후손을 반복적으로 생성합니다. 이미지 및 비디오 생성 작업을 위한 확산 및 흐름 아키텍처 전반에 걸친 광범위한 평가를 통해, 우리의 방법이 기존 접근법을 지속적으로 능가하고, 더 높은 다양성을 달성하며, 보이지 않는 평가 지표에 대한 강력한 일반화 능력을 보여줌을 입증합니다. 우리의 프로젝트는 https://tinnerhrhe.github.io/evosearch 웹사이트에서 확인할 수 있습니다.
English
As the marginal cost of scaling computation (data and parameters) during
model pre-training continues to increase substantially, test-time scaling (TTS)
has emerged as a promising direction for improving generative model performance
by allocating additional computation at inference time. While TTS has
demonstrated significant success across multiple language tasks, there remains
a notable gap in understanding the test-time scaling behaviors of image and
video generative models (diffusion-based or flow-based models). Although recent
works have initiated exploration into inference-time strategies for vision
tasks, these approaches face critical limitations: being constrained to
task-specific domains, exhibiting poor scalability, or falling into reward
over-optimization that sacrifices sample diversity. In this paper, we propose
Evolutionary Search (EvoSearch), a novel, generalist, and
efficient TTS method that effectively enhances the scalability of both image
and video generation across diffusion and flow models, without requiring
additional training or model expansion. EvoSearch reformulates test-time
scaling for diffusion and flow models as an evolutionary search problem,
leveraging principles from biological evolution to efficiently explore and
refine the denoising trajectory. By incorporating carefully designed selection
and mutation mechanisms tailored to the stochastic differential equation
denoising process, EvoSearch iteratively generates higher-quality offspring
while preserving population diversity. Through extensive evaluation across both
diffusion and flow architectures for image and video generation tasks, we
demonstrate that our method consistently outperforms existing approaches,
achieves higher diversity, and shows strong generalizability to unseen
evaluation metrics. Our project is available at the website
https://tinnerhrhe.github.io/evosearch.