CAST: Modelleren van Visuele Toestandsovergangen voor Consistente Videoretrieval
CAST: Modeling Visual State Transitions for Consistent Video Retrieval
March 9, 2026
Auteurs: Yanqing Liu, Yingcheng Liu, Fanghong Dong, Budianto Budianto, Cihang Xie, Yan Jiao
cs.AI
Samenvatting
Naarmate de videocontentcreatie verschuift naar langere verhalende formats, wordt het samenstellen van korte clips tot samenhangende verhaallijnen steeds belangrijker. De heersende retrievalformuleringen blijven echter context-onafhankelijk tijdens inferentie, waarbij ze lokale semantische afstemming prioriteren ten koste van consistentie in toestand en identiteit. Om deze structurele beperking aan te pakken, formaliseren we de taak van Consistente Video Retrieval (CVR) en introduceren we een diagnostische benchmark die YouCook2, COIN en CrossTask omvat. Wij stellen CAST (Context-Aware State Transition) voor, een lichtgewicht, plug-and-play adapter die compatibel is met diverse bevroren vision-language embeddingruimten. Door een toestandsgeconditioneerde residu-update (Δ) te voorspellen uit de visuele geschiedenis, introduceert CAST een expliciete inductieve bias voor latente toestandsevolutie. Uitgebreide experimenten tonen aan dat CAST de prestaties op YouCook2 en CrossTask verbetert, competitief blijft op COIN en consistent beter presteert dan zero-shot baselines over diverse foundation backbones. Bovendien biedt CAST een nuttig herrangeringssignaal voor black-box videogeneratiekandidaten (bijvoorbeeld van Veo), wat temporeel coherentere vervolgen bevordert.
English
As video content creation shifts toward long-form narratives, composing short clips into coherent storylines becomes increasingly important. However, prevailing retrieval formulations remain context-agnostic at inference time, prioritizing local semantic alignment while neglecting state and identity consistency. To address this structural limitation, we formalize the task of Consistent Video Retrieval (CVR) and introduce a diagnostic benchmark spanning YouCook2, COIN, and CrossTask. We propose CAST (Context-Aware State Transition), a lightweight, plug-and-play adapter compatible with diverse frozen vision-language embedding spaces. By predicting a state-conditioned residual update (Δ) from visual history, CAST introduces an explicit inductive bias for latent state evolution. Extensive experiments show that CAST improves performance on YouCook2 and CrossTask, remains competitive on COIN, and consistently outperforms zero-shot baselines across diverse foundation backbones. Furthermore, CAST provides a useful reranking signal for black-box video generation candidates (e.g., from Veo), promoting more temporally coherent continuations.