ChatPaper.aiChatPaper

Optimización de Preferencia Temporal para la Comprensión de Videos de Formato Largo

Temporal Preference Optimization for Long-Form Video Understanding

January 23, 2025
Autores: Rui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy
cs.AI

Resumen

A pesar de los avances significativos en los grandes modelos multimodales de video (video-LMMs), lograr un anclaje temporal efectivo en videos de larga duración sigue siendo un desafío para los modelos existentes. Para abordar esta limitación, proponemos Optimización de Preferencias Temporales (TPO), un novedoso marco de post-entrenamiento diseñado para mejorar las capacidades de anclaje temporal de los video-LMMs a través del aprendizaje de preferencias. TPO adopta un enfoque de autoentrenamiento que permite a los modelos diferenciar entre respuestas temporales bien ancladas y menos precisas mediante el aprovechamiento de conjuntos de datos de preferencias curados en dos niveles de granularidad: anclaje temporal localizado, que se centra en segmentos de video específicos, y anclaje temporal integral, que captura dependencias temporales extendidas a lo largo de secuencias de video completas. Al optimizar en estos conjuntos de datos de preferencias, TPO mejora significativamente la comprensión temporal al tiempo que reduce la dependencia de datos anotados manualmente. Experimentos exhaustivos en tres bancos de pruebas de comprensión de video de larga duración - LongVideoBench, MLVU y Video-MME - demuestran la efectividad de TPO en dos modelos de video-LMMs de última generación. Destacadamente, LLaVA-Video-TPO se establece como el principal modelo de 7B en el banco de pruebas Video-MME, subrayando el potencial de TPO como una solución escalable y eficiente para avanzar en el razonamiento temporal en la comprensión de videos de larga duración. Página del proyecto: https://ruili33.github.io/tpo_website.
English
Despite significant advancements in video large multimodal models (video-LMMs), achieving effective temporal grounding in long-form videos remains a challenge for existing models. To address this limitation, we propose Temporal Preference Optimization (TPO), a novel post-training framework designed to enhance the temporal grounding capabilities of video-LMMs through preference learning. TPO adopts a self-training approach that enables models to differentiate between well-grounded and less accurate temporal responses by leveraging curated preference datasets at two granularities: localized temporal grounding, which focuses on specific video segments, and comprehensive temporal grounding, which captures extended temporal dependencies across entire video sequences. By optimizing on these preference datasets, TPO significantly enhances temporal understanding while reducing reliance on manually annotated data. Extensive experiments on three long-form video understanding benchmarks--LongVideoBench, MLVU, and Video-MME--demonstrate the effectiveness of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO establishes itself as the leading 7B model on the Video-MME benchmark, underscoring the potential of TPO as a scalable and efficient solution for advancing temporal reasoning in long-form video understanding. Project page: https://ruili33.github.io/tpo_website.

Summary

AI-Generated Summary

PDF223January 24, 2025