ChatPaper.aiChatPaper

이미지리서치: 시맨틱 의존성 제약을 넘어선 비디오 생성을 위한 적응형 테스트 시간 탐색

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

October 16, 2025
저자: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI

초록

비디오 생성 모델은 특히 현실적인 시나리오에서 뛰어난 성과를 거두었지만, 상상적인 시나리오에서는 성능이 현저히 저하됩니다. 이러한 프롬프트는 일반적으로 드물게 동시 발생하는 개념과 장거리 의미 관계를 포함하며, 이는 훈련 분포를 벗어나는 경우가 많습니다. 기존 방법들은 주로 비디오 품질을 개선하기 위해 테스트 시간 스케일링을 적용하지만, 고정된 탐색 공간과 정적 보상 설계로 인해 상상적인 시나리오에 대한 적응성이 제한됩니다. 이러한 격차를 메우기 위해, 우리는 프롬프트 기반 적응형 테스트 시간 탐색 전략인 ImagerySearch를 제안합니다. 이 전략은 프롬프트의 의미 관계에 따라 추론 탐색 공간과 보상 함수를 동적으로 조정하여, 도전적인 상상적 설정에서 더 일관되고 시각적으로 그럴듯한 비디오를 생성할 수 있도록 합니다. 이러한 방향으로의 진전을 평가하기 위해, 우리는 장거리 의미 프롬프트를 위한 첫 번째 전용 벤치마크인 LDT-Bench를 소개합니다. 이 벤치마크는 2,839개의 다양한 개념 쌍과 창의적 생성 능력을 평가하기 위한 자동화된 프로토콜로 구성되어 있습니다. 광범위한 실험을 통해 ImagerySearch가 LDT-Bench에서 강력한 비디오 생성 베이스라인과 기존 테스트 시간 스케일링 접근법을 지속적으로 능가하며, VBench에서도 경쟁력 있는 개선을 달성함으로써 다양한 프롬프트 유형에 걸쳐 효과적임을 입증했습니다. 우리는 LDT-Bench와 코드를 공개하여 상상적 비디오 생성에 대한 미래 연구를 촉진할 계획입니다.
English
Video generation models have achieved remarkable progress, particularly excelling in realistic scenarios; however, their performance degrades notably in imaginative scenarios. These prompts often involve rarely co-occurring concepts with long-distance semantic relationships, falling outside training distributions. Existing methods typically apply test-time scaling for improving video quality, but their fixed search spaces and static reward designs limit adaptability to imaginative scenarios. To fill this gap, we propose ImagerySearch, a prompt-guided adaptive test-time search strategy that dynamically adjusts both the inference search space and reward function according to semantic relationships in the prompt. This enables more coherent and visually plausible videos in challenging imaginative settings. To evaluate progress in this direction, we introduce LDT-Bench, the first dedicated benchmark for long-distance semantic prompts, consisting of 2,839 diverse concept pairs and an automated protocol for assessing creative generation capabilities. Extensive experiments show that ImagerySearch consistently outperforms strong video generation baselines and existing test-time scaling approaches on LDT-Bench, and achieves competitive improvements on VBench, demonstrating its effectiveness across diverse prompt types. We will release LDT-Bench and code to facilitate future research on imaginative video generation.
PDF532October 17, 2025