ImagerySearch: Busca Adaptativa em Tempo de Teste para Geração de Vídeo Além das Restrições de Dependência Semântica
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
October 16, 2025
Autores: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI
Resumo
Modelos de geração de vídeo têm alcançado progressos notáveis, destacando-se especialmente em cenários realistas; no entanto, seu desempenho se degrada significativamente em cenários imaginativos. Esses prompts frequentemente envolvem conceitos que raramente co-ocorrem, com relações semânticas de longo alcance, situando-se fora das distribuições de treinamento. Métodos existentes geralmente aplicam escalonamento em tempo de teste para melhorar a qualidade do vídeo, mas seus espaços de busca fixos e designs de recompensa estáticos limitam a adaptabilidade a cenários imaginativos. Para preencher essa lacuna, propomos o ImagerySearch, uma estratégia de busca adaptativa em tempo de teste guiada por prompt, que ajusta dinamicamente tanto o espaço de busca de inferência quanto a função de recompensa de acordo com as relações semânticas no prompt. Isso permite a criação de vídeos mais coerentes e visualmente plausíveis em cenários imaginativos desafiadores. Para avaliar o progresso nessa direção, introduzimos o LDT-Bench, o primeiro benchmark dedicado a prompts semânticos de longo alcance, composto por 2.839 pares de conceitos diversos e um protocolo automatizado para avaliar capacidades de geração criativa. Experimentos extensivos mostram que o ImagerySearch supera consistentemente fortes baselines de geração de vídeo e abordagens existentes de escalonamento em tempo de teste no LDT-Bench, além de alcançar melhorias competitivas no VBench, demonstrando sua eficácia em diversos tipos de prompts. Disponibilizaremos o LDT-Bench e o código para facilitar pesquisas futuras em geração de vídeo imaginativo.
English
Video generation models have achieved remarkable progress, particularly
excelling in realistic scenarios; however, their performance degrades notably
in imaginative scenarios. These prompts often involve rarely co-occurring
concepts with long-distance semantic relationships, falling outside training
distributions. Existing methods typically apply test-time scaling for improving
video quality, but their fixed search spaces and static reward designs limit
adaptability to imaginative scenarios. To fill this gap, we propose
ImagerySearch, a prompt-guided adaptive test-time search strategy that
dynamically adjusts both the inference search space and reward function
according to semantic relationships in the prompt. This enables more coherent
and visually plausible videos in challenging imaginative settings. To evaluate
progress in this direction, we introduce LDT-Bench, the first dedicated
benchmark for long-distance semantic prompts, consisting of 2,839 diverse
concept pairs and an automated protocol for assessing creative generation
capabilities. Extensive experiments show that ImagerySearch consistently
outperforms strong video generation baselines and existing test-time scaling
approaches on LDT-Bench, and achieves competitive improvements on VBench,
demonstrating its effectiveness across diverse prompt types. We will release
LDT-Bench and code to facilitate future research on imaginative video
generation.