イメージリサーチ:意味的依存制約を超えたビデオ生成のための適応的テストタイム検索
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
October 16, 2025
著者: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI
要旨
ビデオ生成モデルは、特に現実的なシナリオにおいて顕著な進歩を遂げてきたが、想像力豊かなシナリオではその性能が著しく低下する。これらのプロンプトは、訓練分布の外にある長距離の意味的関係を持つ稀に共起する概念を含むことが多い。既存の手法は、ビデオ品質を向上させるためにテスト時のスケーリングを適用するが、固定された探索空間と静的な報酬設計により、想像力豊かなシナリオへの適応性が制限されている。このギャップを埋めるため、我々はImagerySearchを提案する。これは、プロンプトに基づいて推論探索空間と報酬関数を動的に調整する適応型テスト時探索戦略であり、プロンプト内の意味的関係に応じて変化する。これにより、挑戦的な想像力豊かな設定において、より一貫性があり視覚的に妥当なビデオを生成することが可能となる。この方向性の進展を評価するため、我々はLDT-Benchを導入する。これは、長距離の意味的プロンプトに特化した初のベンチマークであり、2,839の多様な概念ペアと創造的生成能力を評価する自動化されたプロトコルで構成されている。大規模な実験により、ImagerySearchがLDT-Benchにおいて強力なビデオ生成ベースラインおよび既存のテスト時スケーリング手法を一貫して上回り、VBenchにおいても競争力のある改善を達成することが示され、多様なプロンプトタイプにわたる有効性が実証された。今後の想像力豊かなビデオ生成研究を促進するため、LDT-Benchとコードを公開する予定である。
English
Video generation models have achieved remarkable progress, particularly
excelling in realistic scenarios; however, their performance degrades notably
in imaginative scenarios. These prompts often involve rarely co-occurring
concepts with long-distance semantic relationships, falling outside training
distributions. Existing methods typically apply test-time scaling for improving
video quality, but their fixed search spaces and static reward designs limit
adaptability to imaginative scenarios. To fill this gap, we propose
ImagerySearch, a prompt-guided adaptive test-time search strategy that
dynamically adjusts both the inference search space and reward function
according to semantic relationships in the prompt. This enables more coherent
and visually plausible videos in challenging imaginative settings. To evaluate
progress in this direction, we introduce LDT-Bench, the first dedicated
benchmark for long-distance semantic prompts, consisting of 2,839 diverse
concept pairs and an automated protocol for assessing creative generation
capabilities. Extensive experiments show that ImagerySearch consistently
outperforms strong video generation baselines and existing test-time scaling
approaches on LDT-Bench, and achieves competitive improvements on VBench,
demonstrating its effectiveness across diverse prompt types. We will release
LDT-Bench and code to facilitate future research on imaginative video
generation.