CAST: Моделирование визуальных переходов состояний для согласованного поиска видео
CAST: Modeling Visual State Transitions for Consistent Video Retrieval
March 9, 2026
Авторы: Yanqing Liu, Yingcheng Liu, Fanghong Dong, Budianto Budianto, Cihang Xie, Yan Jiao
cs.AI
Аннотация
По мере смещения создания видеоконтента в сторону длинных нарративов, компоновка коротких клипов в связные сюжетные линии приобретает все большее значение. Однако преобладающие подходы к поиску остаются нечувствительными к контексту на этапе вывода, отдавая приоритет локальной семантической согласованности в ущерб сохранению состояний и идентичности. Для преодоления этого структурного ограничения мы формализуем задачу согласованного видеопоиска (CVR) и представляем диагностический бенчмарк, охватывающий YouCook2, COIN и CrossTask. Мы предлагаем CAST (Context-Aware State Transition) — легковесный модуль типа «подключи и работай», совместимый с различными замороженными пространствами визуально-языковых Embedding-векторов. Предсказывая остаточное обновление (Δ), обусловленное состоянием из визуальной истории, CAST вводит явное индуктивное смещение для эволюции латентного состояния. Многочисленные эксперименты показывают, что CAST улучшает производительность на YouCook2 и CrossTask, остается конкурентоспособным на COIN и стабильно превосходит zero-shot базовые модели в различных фоновых архитектурах. Кроме того, CAST обеспечивает полезный сигнал для переранжирования кандидатов из «черного ящика» генерации видео (например, из Veo), способствуя созданию более временно согласованных продолжений.
English
As video content creation shifts toward long-form narratives, composing short clips into coherent storylines becomes increasingly important. However, prevailing retrieval formulations remain context-agnostic at inference time, prioritizing local semantic alignment while neglecting state and identity consistency. To address this structural limitation, we formalize the task of Consistent Video Retrieval (CVR) and introduce a diagnostic benchmark spanning YouCook2, COIN, and CrossTask. We propose CAST (Context-Aware State Transition), a lightweight, plug-and-play adapter compatible with diverse frozen vision-language embedding spaces. By predicting a state-conditioned residual update (Δ) from visual history, CAST introduces an explicit inductive bias for latent state evolution. Extensive experiments show that CAST improves performance on YouCook2 and CrossTask, remains competitive on COIN, and consistently outperforms zero-shot baselines across diverse foundation backbones. Furthermore, CAST provides a useful reranking signal for black-box video generation candidates (e.g., from Veo), promoting more temporally coherent continuations.