ChatPaper.aiChatPaper

Факторизованное обучение для временно обоснованных видео-языковых моделей

Factorized Learning for Temporally Grounded Video-Language Models

December 30, 2025
Авторы: Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng
cs.AI

Аннотация

Современные видео-языковые модели демонстрируют значительный потенциал в понимании видео, однако по-прежнему испытывают трудности с точным временным позиционированием для восприятия на уровне событий. Мы наблюдаем, что два ключевых фактора понимания видео (а именно, временное позиционирование и текстовая реакция) образуют логическую иерархию: точное позиционирование временных свидетельств закладывает основу для достоверного текстового ответа. Однако существующие подходы обычно решают эти две задачи совместно, без четкой логической структуры, что приводит к субоптимальным целям. Мы решаем эту проблему с позиции факторизованного обучения. Сначала мы предлагаем D²VLM — фреймворк, который развязывает обучение этим двум задачам, одновременно подчеркивая их внутреннюю зависимость. Мы применяем парадигму «сначала позиционирование, затем ответ со ссылкой на свидетельства» и вводим токены свидетельств для их временного позиционирования, что акцентирует захват визуальной семантики на уровне событий, выходя за рамки представления временных меток в существующих работах. Для дальнейшего содействия обучению этим двум задачам мы представляем новый алгоритм факторизованной оптимизации предпочтений (FPO). В отличие от стандартной оптимизации предпочтений, FPO явно включает вероятностное моделирование временного позиционирования в целевую функцию оптимизации, позволяя проводить обучение с подкреплением на основе предпочтений как для временного позиционирования, так и для текстового ответа. Мы также создаем синтетический набор данных для решения проблемы отсутствия подходящих датасетов для факторизованного обучения предпочтениям с явным временным позиционированием. Эксперименты на различных задачах демонстрируют явное преимущество нашего подхода. Наш исходный код доступен по адресу https://github.com/nusnlp/d2vlm.
English
Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D^2VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.
PDF41January 2, 2026