Escalado de la Generación de Imágenes y Videos mediante Búsqueda Evolutiva en Tiempo de Prueba
Scaling Image and Video Generation via Test-Time Evolutionary Search
May 23, 2025
Autores: Haoran He, Jiajun Liang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Ling Pan
cs.AI
Resumen
A medida que el costo marginal de escalar el cómputo (datos y parámetros) durante el preentrenamiento de modelos continúa aumentando sustancialmente, el escalado en tiempo de prueba (TTS, por sus siglas en inglés) ha surgido como una dirección prometedora para mejorar el rendimiento de los modelos generativos al asignar cómputo adicional durante la inferencia. Si bien el TTS ha demostrado un éxito significativo en múltiples tareas de lenguaje, persiste una brecha notable en la comprensión de los comportamientos de escalado en tiempo de prueba de los modelos generativos de imágenes y videos (modelos basados en difusión o flujo). Aunque trabajos recientes han iniciado la exploración de estrategias en tiempo de inferencia para tareas de visión, estos enfoques enfrentan limitaciones críticas: están restringidos a dominios específicos de tareas, exhiben una escalabilidad deficiente o caen en una sobreoptimización de recompensas que sacrifica la diversidad de muestras. En este artículo, proponemos Evolutionary Search (EvoSearch), un método TTS novedoso, generalista y eficiente que mejora efectivamente la escalabilidad tanto de la generación de imágenes como de videos en modelos de difusión y flujo, sin requerir entrenamiento adicional o expansión del modelo. EvoSearch reformula el escalado en tiempo de prueba para modelos de difusión y flujo como un problema de búsqueda evolutiva, aprovechando principios de la evolución biológica para explorar y refinar eficientemente la trayectoria de eliminación de ruido. Al incorporar mecanismos de selección y mutación cuidadosamente diseñados y adaptados al proceso de eliminación de ruido de ecuaciones diferenciales estocásticas, EvoSearch genera iterativamente descendientes de mayor calidad mientras preserva la diversidad de la población. A través de una evaluación exhaustiva en arquitecturas de difusión y flujo para tareas de generación de imágenes y videos, demostramos que nuestro método supera consistentemente los enfoques existentes, logra una mayor diversidad y muestra una fuerte generalización a métricas de evaluación no vistas. Nuestro proyecto está disponible en el sitio web https://tinnerhrhe.github.io/evosearch.
English
As the marginal cost of scaling computation (data and parameters) during
model pre-training continues to increase substantially, test-time scaling (TTS)
has emerged as a promising direction for improving generative model performance
by allocating additional computation at inference time. While TTS has
demonstrated significant success across multiple language tasks, there remains
a notable gap in understanding the test-time scaling behaviors of image and
video generative models (diffusion-based or flow-based models). Although recent
works have initiated exploration into inference-time strategies for vision
tasks, these approaches face critical limitations: being constrained to
task-specific domains, exhibiting poor scalability, or falling into reward
over-optimization that sacrifices sample diversity. In this paper, we propose
Evolutionary Search (EvoSearch), a novel, generalist, and
efficient TTS method that effectively enhances the scalability of both image
and video generation across diffusion and flow models, without requiring
additional training or model expansion. EvoSearch reformulates test-time
scaling for diffusion and flow models as an evolutionary search problem,
leveraging principles from biological evolution to efficiently explore and
refine the denoising trajectory. By incorporating carefully designed selection
and mutation mechanisms tailored to the stochastic differential equation
denoising process, EvoSearch iteratively generates higher-quality offspring
while preserving population diversity. Through extensive evaluation across both
diffusion and flow architectures for image and video generation tasks, we
demonstrate that our method consistently outperforms existing approaches,
achieves higher diversity, and shows strong generalizability to unseen
evaluation metrics. Our project is available at the website
https://tinnerhrhe.github.io/evosearch.Summary
AI-Generated Summary