CAST : Modélisation des transitions d'états visuels pour une recherche vidéo cohérente

Résumé

Alors que la création de contenu vidéo évolue vers des récits longs, la composition de clips courts en histoires cohérentes devient de plus en plus cruciale. Cependant, les formulations de recherche prédominantes restent agnostiques au contexte lors de l'inférence, privilégiant l'alignement sémantique local tout en négligeant la cohérence des états et des identités. Pour remédier à cette limitation structurelle, nous formalisons la tâche de Recherche Vidéo Cohérente (CVR) et introduisons un benchmark diagnostique couvrant YouCook2, COIN et CrossTask. Nous proposons CAST (Transition d'État Sensible au Contexte), un adaptateur léger, prêt à l'emploi et compatible avec divers espaces d'incorporation vision-langage figés. En prédisant une mise à jour résiduelle conditionnée par l'état (Δ) à partir de l'historique visuel, CAST introduit un biais inductif explicite pour l'évolution de l'état latent. Des expériences approfondies montrent que CAST améliore les performances sur YouCook2 et CrossTask, reste compétitif sur COIN et surpasse constamment les lignes de base zero-shot sur diverses architectures fondamentales. De plus, CAST fournit un signal de reranking utile pour les candidats de génération vidéo en boîte noire (par exemple, de Veo), favorisant des continuités temporellement plus cohérentes.

English

As video content creation shifts toward long-form narratives, composing short clips into coherent storylines becomes increasingly important. However, prevailing retrieval formulations remain context-agnostic at inference time, prioritizing local semantic alignment while neglecting state and identity consistency. To address this structural limitation, we formalize the task of Consistent Video Retrieval (CVR) and introduce a diagnostic benchmark spanning YouCook2, COIN, and CrossTask. We propose CAST (Context-Aware State Transition), a lightweight, plug-and-play adapter compatible with diverse frozen vision-language embedding spaces. By predicting a state-conditioned residual update (Δ) from visual history, CAST introduces an explicit inductive bias for latent state evolution. Extensive experiments show that CAST improves performance on YouCook2 and CrossTask, remains competitive on COIN, and consistently outperforms zero-shot baselines across diverse foundation backbones. Furthermore, CAST provides a useful reranking signal for black-box video generation candidates (e.g., from Veo), promoting more temporally coherent continuations.

CAST : Modélisation des transitions d'états visuels pour une recherche vidéo cohérente

CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Résumé

Support