ImagerySearch: Adaptieve Test-Tijd Zoektocht voor Videogeneratie Voorbij Semantische Afhankelijkheidsbeperkingen
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
October 16, 2025
Auteurs: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI
Samenvatting
Videogeneratiemodellen hebben opmerkelijke vooruitgang geboekt, met name in realistische scenario's; hun prestaties nemen echter aanzienlijk af in fantasierijke scenario's. Deze prompts omvatten vaak concepten die zelden samen voorkomen en langeafstands semantische relaties hebben, waardoor ze buiten de trainingsdistributies vallen. Bestaande methoden passen meestal testtijd-schaling toe om de videokwaliteit te verbeteren, maar hun vaste zoekruimtes en statische beloningsontwerpen beperken de aanpassingsvermogen aan fantasierijke scenario's. Om deze kloof te overbruggen, stellen we ImagerySearch voor, een prompt-gestuurde adaptieve testtijd-zoekstrategie die zowel de inferentie-zoekruimte als de beloningsfunctie dynamisch aanpast op basis van semantische relaties in de prompt. Hierdoor ontstaan meer samenhangende en visueel plausibele video's in uitdagende fantasierijke omgevingen. Om de vooruitgang in deze richting te evalueren, introduceren we LDT-Bench, de eerste toegewijde benchmark voor langeafstands semantische prompts, bestaande uit 2.839 diverse conceptparen en een geautomatiseerd protocol voor het beoordelen van creatieve generatiecapaciteiten. Uitgebreide experimenten tonen aan dat ImagerySearch consistent sterke videogeneratie-baselines en bestaande testtijd-schalingbenaderingen op LDT-Bench overtreft, en competitieve verbeteringen behaalt op VBench, wat de effectiviteit ervan aantoont bij diverse prompttypen. We zullen LDT-Bench en code vrijgeven om toekomstig onderzoek naar fantasierijke videogeneratie te faciliteren.
English
Video generation models have achieved remarkable progress, particularly
excelling in realistic scenarios; however, their performance degrades notably
in imaginative scenarios. These prompts often involve rarely co-occurring
concepts with long-distance semantic relationships, falling outside training
distributions. Existing methods typically apply test-time scaling for improving
video quality, but their fixed search spaces and static reward designs limit
adaptability to imaginative scenarios. To fill this gap, we propose
ImagerySearch, a prompt-guided adaptive test-time search strategy that
dynamically adjusts both the inference search space and reward function
according to semantic relationships in the prompt. This enables more coherent
and visually plausible videos in challenging imaginative settings. To evaluate
progress in this direction, we introduce LDT-Bench, the first dedicated
benchmark for long-distance semantic prompts, consisting of 2,839 diverse
concept pairs and an automated protocol for assessing creative generation
capabilities. Extensive experiments show that ImagerySearch consistently
outperforms strong video generation baselines and existing test-time scaling
approaches on LDT-Bench, and achieves competitive improvements on VBench,
demonstrating its effectiveness across diverse prompt types. We will release
LDT-Bench and code to facilitate future research on imaginative video
generation.