ImagerySearch : Recherche adaptative en temps de test pour la génération vidéo au-delà des contraintes de dépendance sémantique
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
October 16, 2025
papers.authors: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI
papers.abstract
Les modèles de génération vidéo ont réalisé des progrès remarquables, excellant particulièrement dans des scénarios réalistes ; cependant, leurs performances se dégradent notablement dans des scénarios imaginatifs. Ces prompts impliquent souvent des concepts rarement co-occurrents avec des relations sémantiques à longue distance, sortant des distributions d'apprentissage. Les méthodes existantes appliquent généralement un ajustement à l'inférence pour améliorer la qualité vidéo, mais leurs espaces de recherche fixes et leurs fonctions de récompense statiques limitent leur adaptabilité aux scénarios imaginatifs. Pour combler cette lacune, nous proposons ImagerySearch, une stratégie de recherche adaptative guidée par le prompt qui ajuste dynamiquement à la fois l'espace de recherche d'inférence et la fonction de récompense en fonction des relations sémantiques du prompt. Cela permet de générer des vidéos plus cohérentes et visuellement plausibles dans des contextes imaginatifs complexes. Pour évaluer les progrès dans cette direction, nous introduisons LDT-Bench, le premier benchmark dédié aux prompts sémantiques à longue distance, composé de 2 839 paires de concepts divers et d'un protocole automatisé pour évaluer les capacités de génération créative. Des expériences approfondies montrent qu'ImagerySearch surpasse systématiquement les modèles de génération vidéo de référence et les approches d'ajustement à l'inférence existantes sur LDT-Bench, et obtient des améliorations compétitives sur VBench, démontrant son efficacité sur divers types de prompts. Nous publierons LDT-Bench et le code pour faciliter les recherches futures sur la génération vidéo imaginative.
English
Video generation models have achieved remarkable progress, particularly
excelling in realistic scenarios; however, their performance degrades notably
in imaginative scenarios. These prompts often involve rarely co-occurring
concepts with long-distance semantic relationships, falling outside training
distributions. Existing methods typically apply test-time scaling for improving
video quality, but their fixed search spaces and static reward designs limit
adaptability to imaginative scenarios. To fill this gap, we propose
ImagerySearch, a prompt-guided adaptive test-time search strategy that
dynamically adjusts both the inference search space and reward function
according to semantic relationships in the prompt. This enables more coherent
and visually plausible videos in challenging imaginative settings. To evaluate
progress in this direction, we introduce LDT-Bench, the first dedicated
benchmark for long-distance semantic prompts, consisting of 2,839 diverse
concept pairs and an automated protocol for assessing creative generation
capabilities. Extensive experiments show that ImagerySearch consistently
outperforms strong video generation baselines and existing test-time scaling
approaches on LDT-Bench, and achieves competitive improvements on VBench,
demonstrating its effectiveness across diverse prompt types. We will release
LDT-Bench and code to facilitate future research on imaginative video
generation.