ImagerySearch: Búsqueda Adaptativa en Tiempo de Prueba para la Generación de Vídeo Más Allá de las Restricciones de Dependencia Semántica
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
October 16, 2025
Autores: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI
Resumen
Los modelos de generación de videos han logrado avances notables, destacándose especialmente en escenarios realistas; sin embargo, su rendimiento se deteriora significativamente en escenarios imaginativos. Estos estímulos suelen involucrar conceptos que rara vez co-ocurren con relaciones semánticas de larga distancia, quedando fuera de las distribuciones de entrenamiento. Los métodos existentes suelen aplicar escalado en tiempo de prueba para mejorar la calidad del video, pero sus espacios de búsqueda fijos y diseños de recompensa estáticos limitan la adaptabilidad a escenarios imaginativos. Para abordar esta brecha, proponemos ImagerySearch, una estrategia de búsqueda adaptativa guiada por estímulos que ajusta dinámicamente tanto el espacio de búsqueda de inferencia como la función de recompensa según las relaciones semánticas en el estímulo. Esto permite la generación de videos más coherentes y visualmente plausibles en entornos imaginativos desafiantes. Para evaluar el progreso en esta dirección, presentamos LDT-Bench, el primer punto de referencia dedicado a estímulos semánticos de larga distancia, compuesto por 2,839 pares de conceptos diversos y un protocolo automatizado para evaluar las capacidades de generación creativa. Experimentos extensos muestran que ImagerySearch supera consistentemente a los modelos de generación de video de referencia y a los enfoques de escalado en tiempo de prueba existentes en LDT-Bench, y logra mejoras competitivas en VBench, demostrando su efectividad en diversos tipos de estímulos. Publicaremos LDT-Bench y el código para facilitar futuras investigaciones sobre la generación de videos imaginativos.
English
Video generation models have achieved remarkable progress, particularly
excelling in realistic scenarios; however, their performance degrades notably
in imaginative scenarios. These prompts often involve rarely co-occurring
concepts with long-distance semantic relationships, falling outside training
distributions. Existing methods typically apply test-time scaling for improving
video quality, but their fixed search spaces and static reward designs limit
adaptability to imaginative scenarios. To fill this gap, we propose
ImagerySearch, a prompt-guided adaptive test-time search strategy that
dynamically adjusts both the inference search space and reward function
according to semantic relationships in the prompt. This enables more coherent
and visually plausible videos in challenging imaginative settings. To evaluate
progress in this direction, we introduce LDT-Bench, the first dedicated
benchmark for long-distance semantic prompts, consisting of 2,839 diverse
concept pairs and an automated protocol for assessing creative generation
capabilities. Extensive experiments show that ImagerySearch consistently
outperforms strong video generation baselines and existing test-time scaling
approaches on LDT-Bench, and achieves competitive improvements on VBench,
demonstrating its effectiveness across diverse prompt types. We will release
LDT-Bench and code to facilitate future research on imaginative video
generation.