CAST: Modelado de Transiciones de Estados Visuales para la Recuperación Consistente de Videos

Resumen

A medida que la creación de contenido en video se orienta hacia narrativas de formato largo, la composición de clips cortos en tramas coherentes adquiere creciente importancia. Sin embargo, las formulaciones de recuperación predominantes siguen siendo independientes del contexto en el momento de la inferencia, priorizando la alineación semántica local mientras descuidan la consistencia de estados e identidades. Para abordar esta limitación estructural, formalizamos la tarea de Recuperación de Video Consistente (CVR) e introducimos un benchmark de diagnóstico que abarca YouCook2, COIN y CrossTask. Proponemos CAST (Transición de Estado Consciente del Contexto), un adaptador ligero y plug-and-play compatible con diversos espacios de incrustación visión-lenguaje congelados. Al predecir una actualización residual condicionada por el estado (Δ) a partir del historial visual, CAST introduce un sesgo inductivo explícito para la evolución del estado latente. Experimentos exhaustivos demuestran que CAST mejora el rendimiento en YouCook2 y CrossTask, se mantiene competitivo en COIN y supera consistentemente a los baselines zero-shot en diversos modelos base fundacionales. Además, CAST proporciona una señal útil de reordenación para candidatos de generación de video de caja negra (por ejemplo, de Veo), promoviendo continuaciones temporalmente más coherentes.

English

As video content creation shifts toward long-form narratives, composing short clips into coherent storylines becomes increasingly important. However, prevailing retrieval formulations remain context-agnostic at inference time, prioritizing local semantic alignment while neglecting state and identity consistency. To address this structural limitation, we formalize the task of Consistent Video Retrieval (CVR) and introduce a diagnostic benchmark spanning YouCook2, COIN, and CrossTask. We propose CAST (Context-Aware State Transition), a lightweight, plug-and-play adapter compatible with diverse frozen vision-language embedding spaces. By predicting a state-conditioned residual update (Δ) from visual history, CAST introduces an explicit inductive bias for latent state evolution. Extensive experiments show that CAST improves performance on YouCook2 and CrossTask, remains competitive on COIN, and consistently outperforms zero-shot baselines across diverse foundation backbones. Furthermore, CAST provides a useful reranking signal for black-box video generation candidates (e.g., from Veo), promoting more temporally coherent continuations.

CAST: Modelado de Transiciones de Estados Visuales para la Recuperación Consistente de Videos

CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Resumen

Support