CAST: Modelagem de Transições de Estado Visual para Recuperação Consistente de Vídeo

Resumo

À medida que a criação de conteúdo em vídeo se desloca para narrativas de formato longo, a composição de clipes curtos em enredos coerentes torna-se cada vez mais importante. No entanto, as formulações de recuperação predominantes permanecem independentes de contexto no momento da inferência, priorizando o alinhamento semântico local enquanto negligenciam a consistência de estado e identidade. Para abordar esta limitação estrutural, formalizamos a tarefa de Recuperação de Vídeo Consistente (CVR) e introduzimos um benchmark de diagnóstico que abrange YouCook2, COIN e CrossTask. Propomos o CAST (Context-Aware State Transition), um adaptador leve e plug-and-play compatível com diversos espaços de incorporação visão-linguagem congelados. Ao prever uma atualização residual condicionada ao estado (Δ) a partir do histórico visual, o CAST introduz um viés indutivo explícito para a evolução do estado latente. Experimentos extensivos mostram que o CAST melhora o desempenho no YouCook2 e no CrossTask, mantém-se competitivo no COIN e supera consistentemente as linhas de base zero-shot em diversas arquiteturas base de fundação. Além disso, o CAST fornece um sinal útil de rerranqueamento para candidatos de geração de vídeo de caixa preta (por exemplo, do Veo), promovendo continuações temporalmente mais coerentes.

English

As video content creation shifts toward long-form narratives, composing short clips into coherent storylines becomes increasingly important. However, prevailing retrieval formulations remain context-agnostic at inference time, prioritizing local semantic alignment while neglecting state and identity consistency. To address this structural limitation, we formalize the task of Consistent Video Retrieval (CVR) and introduce a diagnostic benchmark spanning YouCook2, COIN, and CrossTask. We propose CAST (Context-Aware State Transition), a lightweight, plug-and-play adapter compatible with diverse frozen vision-language embedding spaces. By predicting a state-conditioned residual update (Δ) from visual history, CAST introduces an explicit inductive bias for latent state evolution. Extensive experiments show that CAST improves performance on YouCook2 and CrossTask, remains competitive on COIN, and consistently outperforms zero-shot baselines across diverse foundation backbones. Furthermore, CAST provides a useful reranking signal for black-box video generation candidates (e.g., from Veo), promoting more temporally coherent continuations.

CAST: Modelagem de Transições de Estado Visual para Recuperação Consistente de Vídeo

CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Resumo

Support