CAST: Modellierung visueller Zustandsübergänge für konsistente Videorecherche

Zusammenfassung

Da sich die Videoproduktion zunehmend auf langformatige Erzählformen verlagert, wird die Komposition kurzer Clips zu kohärenten Handlungssträngen immer wichtiger. Bisherige Retrieval-Ansätze bleiben jedoch zum Inferenzzeitpunkt kontextunabhängig, priorisieren lokale semantische Übereinstimmung und vernachlässigen Zustands- und Identitätskonsistenz. Um diese strukturelle Einschränkung zu adressieren, formalisieren wir die Aufgabe des Consistent Video Retrieval (CVR) und führen einen diagnostischen Benchmark ein, der YouCook2, COIN und CrossTask umfasst. Wir schlagen CAST (Context-Aware State Transition) vor, einen leichtgewichtigen Plug-and-Play-Adapter, der mit verschiedenen eingefrorenen Vision-Language-Einbettungsräumen kompatibel ist. Durch die Vorhersage eines zustandsbedingten Residual-Updates (Δ) aus der visuellen Historie führt CAST eine explizite induktive Verzerrung für die latente Zustandsentwicklung ein. Umfangreiche Experimente zeigen, dass CAST die Leistung auf YouCook2 und CrossTask verbessert, auf COIN wettbewerbsfähig bleibt und zero-shot Baselines über verschiedene Foundation-Backbones hinweg konsistent übertrifft. Darüber hinaus liefert CAST ein nützliches Reranking-Signal für Kandidaten aus Black-Box-Videogeneratoren (z.B. Veo) und fördert so temporal kohärentere Fortsetzungen.

English

As video content creation shifts toward long-form narratives, composing short clips into coherent storylines becomes increasingly important. However, prevailing retrieval formulations remain context-agnostic at inference time, prioritizing local semantic alignment while neglecting state and identity consistency. To address this structural limitation, we formalize the task of Consistent Video Retrieval (CVR) and introduce a diagnostic benchmark spanning YouCook2, COIN, and CrossTask. We propose CAST (Context-Aware State Transition), a lightweight, plug-and-play adapter compatible with diverse frozen vision-language embedding spaces. By predicting a state-conditioned residual update (Δ) from visual history, CAST introduces an explicit inductive bias for latent state evolution. Extensive experiments show that CAST improves performance on YouCook2 and CrossTask, remains competitive on COIN, and consistently outperforms zero-shot baselines across diverse foundation backbones. Furthermore, CAST provides a useful reranking signal for black-box video generation candidates (e.g., from Veo), promoting more temporally coherent continuations.

CAST: Modellierung visueller Zustandsübergänge für konsistente Videorecherche

CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Zusammenfassung

Support