ChatPaper.aiChatPaper

イメージリサーチ:意味的依存制約を超えたビデオ生成のための適応的テストタイム検索

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

October 16, 2025
著者: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI

要旨

ビデオ生成モデルは、特に現実的なシナリオにおいて顕著な進歩を遂げてきたが、想像力豊かなシナリオではその性能が著しく低下する。これらのプロンプトは、訓練分布の外にある長距離の意味的関係を持つ稀に共起する概念を含むことが多い。既存の手法は、ビデオ品質を向上させるためにテスト時のスケーリングを適用するが、固定された探索空間と静的な報酬設計により、想像力豊かなシナリオへの適応性が制限されている。このギャップを埋めるため、我々はImagerySearchを提案する。これは、プロンプトに基づいて推論探索空間と報酬関数を動的に調整する適応型テスト時探索戦略であり、プロンプト内の意味的関係に応じて変化する。これにより、挑戦的な想像力豊かな設定において、より一貫性があり視覚的に妥当なビデオを生成することが可能となる。この方向性の進展を評価するため、我々はLDT-Benchを導入する。これは、長距離の意味的プロンプトに特化した初のベンチマークであり、2,839の多様な概念ペアと創造的生成能力を評価する自動化されたプロトコルで構成されている。大規模な実験により、ImagerySearchがLDT-Benchにおいて強力なビデオ生成ベースラインおよび既存のテスト時スケーリング手法を一貫して上回り、VBenchにおいても競争力のある改善を達成することが示され、多様なプロンプトタイプにわたる有効性が実証された。今後の想像力豊かなビデオ生成研究を促進するため、LDT-Benchとコードを公開する予定である。
English
Video generation models have achieved remarkable progress, particularly excelling in realistic scenarios; however, their performance degrades notably in imaginative scenarios. These prompts often involve rarely co-occurring concepts with long-distance semantic relationships, falling outside training distributions. Existing methods typically apply test-time scaling for improving video quality, but their fixed search spaces and static reward designs limit adaptability to imaginative scenarios. To fill this gap, we propose ImagerySearch, a prompt-guided adaptive test-time search strategy that dynamically adjusts both the inference search space and reward function according to semantic relationships in the prompt. This enables more coherent and visually plausible videos in challenging imaginative settings. To evaluate progress in this direction, we introduce LDT-Bench, the first dedicated benchmark for long-distance semantic prompts, consisting of 2,839 diverse concept pairs and an automated protocol for assessing creative generation capabilities. Extensive experiments show that ImagerySearch consistently outperforms strong video generation baselines and existing test-time scaling approaches on LDT-Bench, and achieves competitive improvements on VBench, demonstrating its effectiveness across diverse prompt types. We will release LDT-Bench and code to facilitate future research on imaginative video generation.
PDF532October 17, 2025