ImagerySearch: Адаптивный поиск во время тестирования для генерации видео за пределами ограничений семантической зависимости
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
October 16, 2025
Авторы: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI
Аннотация
Модели генерации видео достигли значительного прогресса, особенно в реалистичных сценариях; однако их производительность заметно снижается в воображаемых сценариях. Такие запросы часто включают редко сочетающиеся концепции с длинными семантическими связями, выходящими за пределы обучающих распределений. Существующие методы обычно применяют масштабирование на этапе тестирования для улучшения качества видео, но их фиксированные пространства поиска и статические схемы вознаграждения ограничивают адаптируемость к воображаемым сценариям. Чтобы заполнить этот пробел, мы предлагаем ImagerySearch — адаптивную стратегию поиска на этапе тестирования, управляемую запросом, которая динамически корректирует как пространство поиска при выводе, так и функцию вознаграждения в соответствии с семантическими связями в запросе. Это позволяет создавать более согласованные и визуально правдоподобные видео в сложных воображаемых условиях. Для оценки прогресса в этом направлении мы представляем LDT-Bench — первый специализированный бенчмарк для запросов с длинными семантическими связями, состоящий из 2839 разнообразных пар концепций и автоматизированного протокола для оценки способностей к творческой генерации. Многочисленные эксперименты показывают, что ImagerySearch стабильно превосходит сильные базовые модели генерации видео и существующие подходы к масштабированию на этапе тестирования на LDT-Bench, а также демонстрирует конкурентоспособные улучшения на VBench, подтверждая свою эффективность для различных типов запросов. Мы опубликуем LDT-Bench и код, чтобы способствовать дальнейшим исследованиям в области генерации воображаемых видео.
English
Video generation models have achieved remarkable progress, particularly
excelling in realistic scenarios; however, their performance degrades notably
in imaginative scenarios. These prompts often involve rarely co-occurring
concepts with long-distance semantic relationships, falling outside training
distributions. Existing methods typically apply test-time scaling for improving
video quality, but their fixed search spaces and static reward designs limit
adaptability to imaginative scenarios. To fill this gap, we propose
ImagerySearch, a prompt-guided adaptive test-time search strategy that
dynamically adjusts both the inference search space and reward function
according to semantic relationships in the prompt. This enables more coherent
and visually plausible videos in challenging imaginative settings. To evaluate
progress in this direction, we introduce LDT-Bench, the first dedicated
benchmark for long-distance semantic prompts, consisting of 2,839 diverse
concept pairs and an automated protocol for assessing creative generation
capabilities. Extensive experiments show that ImagerySearch consistently
outperforms strong video generation baselines and existing test-time scaling
approaches on LDT-Bench, and achieves competitive improvements on VBench,
demonstrating its effectiveness across diverse prompt types. We will release
LDT-Bench and code to facilitate future research on imaginative video
generation.