Оптимизация временных предпочтений для понимания видео большой продолжительности
Temporal Preference Optimization for Long-Form Video Understanding
January 23, 2025
Авторы: Rui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy
cs.AI
Аннотация
Несмотря на значительные достижения в области видео с большими мультимодальными моделями (video-LMMs), достижение эффективной временной привязки в длинных видео остается вызовом для существующих моделей. Для решения этого ограничения мы предлагаем Оптимизацию Временных Предпочтений (TPO), новую посттренировочную структуру, разработанную для улучшения возможностей временной привязки видео-LMMs через обучение предпочтениям. TPO принимает подход самообучения, который позволяет моделям различать хорошо привязанные и менее точные временные ответы, используя отобранные наборы данных предпочтений на двух уровнях детализации: локализованная временная привязка, которая фокусируется на конкретных сегментах видео, и всесторонняя временная привязка, которая охватывает расширенные временные зависимости по всему видео. Оптимизируя на этих наборах данных предпочтений, TPO значительно улучшает временное понимание, снижая зависимость от ручной аннотации данных. Обширные эксперименты на трех бенчмарках понимания длинных видео - LongVideoBench, MLVU и Video-MME - демонстрируют эффективность TPO на двух современных видео-LMMs. Особенно LLaVA-Video-TPO утверждает себя как ведущая модель 7B на бенчмарке Video-MME, подчеркивая потенциал TPO как масштабируемого и эффективного решения для продвижения временного рассуждения в понимании длинных видео. Страница проекта: https://ruili33.github.io/tpo_website.
English
Despite significant advancements in video large multimodal models
(video-LMMs), achieving effective temporal grounding in long-form videos
remains a challenge for existing models. To address this limitation, we propose
Temporal Preference Optimization (TPO), a novel post-training framework
designed to enhance the temporal grounding capabilities of video-LMMs through
preference learning. TPO adopts a self-training approach that enables models to
differentiate between well-grounded and less accurate temporal responses by
leveraging curated preference datasets at two granularities: localized temporal
grounding, which focuses on specific video segments, and comprehensive temporal
grounding, which captures extended temporal dependencies across entire video
sequences. By optimizing on these preference datasets, TPO significantly
enhances temporal understanding while reducing reliance on manually annotated
data. Extensive experiments on three long-form video understanding
benchmarks--LongVideoBench, MLVU, and Video-MME--demonstrate the effectiveness
of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO
establishes itself as the leading 7B model on the Video-MME benchmark,
underscoring the potential of TPO as a scalable and efficient solution for
advancing temporal reasoning in long-form video understanding. Project page:
https://ruili33.github.io/tpo_website.Summary
AI-Generated Summary