ChatPaper.aiChatPaper

ImagerySearch: Adaptiver Testzeit-Suche für die Videogenerierung jenseits semantischer Abhängigkeitsbeschränkungen

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

October 16, 2025
papers.authors: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
cs.AI

papers.abstract

Videogenerationsmodelle haben bemerkenswerte Fortschritte erzielt, insbesondere in realistischen Szenarien; jedoch verschlechtert sich ihre Leistung deutlich in imaginativen Szenarien. Diese Prompts beinhalten oft selten gemeinsam auftretende Konzepte mit langstreckigen semantischen Beziehungen, die außerhalb der Trainingsverteilungen liegen. Bestehende Methoden wenden typischerweise Testzeit-Skalierung an, um die Videoqualität zu verbessern, aber ihre festen Suchräume und statischen Belohnungsdesigns schränken die Anpassungsfähigkeit an imaginative Szenarien ein. Um diese Lücke zu schließen, schlagen wir ImagerySearch vor, eine prompt-gesteuerte adaptive Testzeit-Suchstrategie, die sowohl den Inferenz-Suchraum als auch die Belohnungsfunktion dynamisch an die semantischen Beziehungen im Prompt anpasst. Dies ermöglicht kohärentere und visuell plausiblere Videos in anspruchsvollen imaginativen Settings. Um den Fortschritt in dieser Richtung zu bewerten, führen wir LDT-Bench ein, den ersten dedizierten Benchmark für langstreckige semantische Prompts, bestehend aus 2.839 diversen Konzeptpaaren und einem automatisierten Protokoll zur Bewertung kreativer Generationsfähigkeiten. Umfangreiche Experimente zeigen, dass ImagerySearch durchweg starke Videogenerations-Baselines und bestehende Testzeit-Skalierungsansätze auf LDT-Bench übertrifft und wettbewerbsfähige Verbesserungen auf VBench erzielt, was seine Wirksamkeit über diverse Prompt-Typen hinweg demonstriert. Wir werden LDT-Bench und den Code veröffentlichen, um zukünftige Forschung zur imaginativen Videogeneration zu erleichtern.
English
Video generation models have achieved remarkable progress, particularly excelling in realistic scenarios; however, their performance degrades notably in imaginative scenarios. These prompts often involve rarely co-occurring concepts with long-distance semantic relationships, falling outside training distributions. Existing methods typically apply test-time scaling for improving video quality, but their fixed search spaces and static reward designs limit adaptability to imaginative scenarios. To fill this gap, we propose ImagerySearch, a prompt-guided adaptive test-time search strategy that dynamically adjusts both the inference search space and reward function according to semantic relationships in the prompt. This enables more coherent and visually plausible videos in challenging imaginative settings. To evaluate progress in this direction, we introduce LDT-Bench, the first dedicated benchmark for long-distance semantic prompts, consisting of 2,839 diverse concept pairs and an automated protocol for assessing creative generation capabilities. Extensive experiments show that ImagerySearch consistently outperforms strong video generation baselines and existing test-time scaling approaches on LDT-Bench, and achieves competitive improvements on VBench, demonstrating its effectiveness across diverse prompt types. We will release LDT-Bench and code to facilitate future research on imaginative video generation.
PDF532October 17, 2025