ImagerySearch: Ricerca Adattiva al Momento del Test per la Generazione di Video Oltre i Vincoli di Dipendenza Semantica
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
October 16, 2025
Autori: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI
Abstract
I modelli di generazione video hanno compiuto progressi significativi, eccellendo in particolare in scenari realistici; tuttavia, le loro prestazioni si deteriorano notevolmente in scenari immaginativi. Questi prompt spesso coinvolgono concetti che raramente co-occorrono con relazioni semantiche a lunga distanza, cadendo al di fuori delle distribuzioni di addestramento. I metodi esistenti applicano tipicamente il ridimensionamento al momento del test per migliorare la qualità del video, ma i loro spazi di ricerca fissi e i design di ricompensa statici limitano l'adattabilità a scenari immaginativi. Per colmare questa lacuna, proponiamo ImagerySearch, una strategia di ricerca adattiva al momento del test guidata dal prompt che regola dinamicamente sia lo spazio di ricerca dell'inferenza che la funzione di ricompensa in base alle relazioni semantiche nel prompt. Ciò consente video più coerenti e visivamente plausibili in contesti immaginativi impegnativi. Per valutare i progressi in questa direzione, introduciamo LDT-Bench, il primo benchmark dedicato ai prompt semantici a lunga distanza, composto da 2.839 coppie di concetti diversi e un protocollo automatizzato per valutare le capacità di generazione creativa. Esperimenti estesi dimostrano che ImagerySearch supera costantemente i baseline di generazione video e gli approcci esistenti di ridimensionamento al momento del test su LDT-Bench, e ottiene miglioramenti competitivi su VBench, dimostrando la sua efficacia su diversi tipi di prompt. Rilasceremo LDT-Bench e il codice per facilitare la ricerca futura sulla generazione video immaginativa.
English
Video generation models have achieved remarkable progress, particularly
excelling in realistic scenarios; however, their performance degrades notably
in imaginative scenarios. These prompts often involve rarely co-occurring
concepts with long-distance semantic relationships, falling outside training
distributions. Existing methods typically apply test-time scaling for improving
video quality, but their fixed search spaces and static reward designs limit
adaptability to imaginative scenarios. To fill this gap, we propose
ImagerySearch, a prompt-guided adaptive test-time search strategy that
dynamically adjusts both the inference search space and reward function
according to semantic relationships in the prompt. This enables more coherent
and visually plausible videos in challenging imaginative settings. To evaluate
progress in this direction, we introduce LDT-Bench, the first dedicated
benchmark for long-distance semantic prompts, consisting of 2,839 diverse
concept pairs and an automated protocol for assessing creative generation
capabilities. Extensive experiments show that ImagerySearch consistently
outperforms strong video generation baselines and existing test-time scaling
approaches on LDT-Bench, and achieves competitive improvements on VBench,
demonstrating its effectiveness across diverse prompt types. We will release
LDT-Bench and code to facilitate future research on imaginative video
generation.