ChatPaper.aiChatPaper

Aprendizaje Factorizado para Modelos de Video y Lenguaje con Anclaje Temporal

Factorized Learning for Temporally Grounded Video-Language Models

December 30, 2025
Autores: Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng
cs.AI

Resumen

Los modelos recientes de video-lenguaje han demostrado un gran potencial para la comprensión de videos, pero aún presentan dificultades con la localización temporal precisa para la percepción a nivel de evento. Observamos que dos factores principales en la comprensión de videos (es decir, la localización temporal y la respuesta textual) forman una jerarquía lógica: una localización precisa de la evidencia temporal sienta las bases para una respuesta textual confiable. Sin embargo, los trabajos existentes suelen abordar estas dos tareas de manera acoplada sin una estructura lógica clara, lo que conduce a objetivos subóptimos. Abordamos este problema desde una perspectiva de aprendizaje factorizado. Primero proponemos D²VLM, un marco que desacopla el aprendizaje de estas dos tareas y al mismo tiempo enfatiza su dependencia inherente. Adoptamos un paradigma de "localización y luego respuesta con referencia a la evidencia" e introducimos *tokens* de evidencia para la localización de evidencias, los cuales enfatizan la captura de semántica visual a nivel de evento, yendo más allá del enfoque en la representación de marcas de tiempo presente en trabajos existentes. Para facilitar aún más el aprendizaje de estas dos tareas, introducimos un novedoso algoritmo de optimización de preferencias factorizado (FPO). A diferencia de la optimización de preferencias estándar, FPO incorpora explícitamente el modelado probabilístico de la localización temporal en el objetivo de optimización, permitiendo el aprendizaje por preferencias tanto para la localización temporal como para la respuesta textual. También construimos un conjunto de datos sintético para abordar la falta de conjuntos de datos adecuados para el aprendizaje de preferencias factorizado con localización temporal explícita. Los experimentos en varias tareas demuestran la clara ventaja de nuestro enfoque. Nuestro código fuente está disponible en https://github.com/nusnlp/d2vlm.
English
Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D^2VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.
PDF41January 2, 2026