ChatPaper.aiChatPaper

長尺ビデオ理解のための時間的選好最適化

Temporal Preference Optimization for Long-Form Video Understanding

January 23, 2025
著者: Rui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy
cs.AI

要旨

ビデオ大規模多モーダルモデル(video-LMMs)における重要な進展にもかかわらず、長尺ビデオにおける効果的な時間的グラウンディングの実現は既存のモデルにとって課題となっています。この制約に対処するため、我々はTemporal Preference Optimization(TPO)を提案します。これは、ビデオ-LMMsの時間的グラウンディング能力を向上させるために設計された新しい事後トレーニングフレームワークであり、選好学習を通じてこれを実現します。TPOは、モデルが選好データセットを利用して、適切にグラウンディングされた時間的応答とより正確でない時間的応答を区別できるようにするセルフトレーニングアプローチを採用しています。この選好データセットは、特定のビデオセグメントに焦点を当てる局所的時間的グラウンディングと、ビデオ全体の拡張された時間的依存関係を捉える包括的時間的グラウンディングの2つの粒度で構築されています。これらの選好データセットに最適化することで、TPOは時間的理解を著しく向上させると同時に、手動で注釈付けされたデータへの依存を減らします。LongVideoBench、MLVU、Video-MMEの3つの長尺ビデオ理解ベンチマークでの包括的な実験により、TPOの効果が示されました。特に、LLaVA-Video-TPOは、Video-MMEベンチマークにおいてリーディングな7Bモデルとして位置づけられ、長尺ビデオ理解における時間的推論を進めるためのスケーラブルかつ効率的なソリューションとしてのTPOの潜在能力が強調されました。プロジェクトページ:https://ruili33.github.io/tpo_website.
English
Despite significant advancements in video large multimodal models (video-LMMs), achieving effective temporal grounding in long-form videos remains a challenge for existing models. To address this limitation, we propose Temporal Preference Optimization (TPO), a novel post-training framework designed to enhance the temporal grounding capabilities of video-LMMs through preference learning. TPO adopts a self-training approach that enables models to differentiate between well-grounded and less accurate temporal responses by leveraging curated preference datasets at two granularities: localized temporal grounding, which focuses on specific video segments, and comprehensive temporal grounding, which captures extended temporal dependencies across entire video sequences. By optimizing on these preference datasets, TPO significantly enhances temporal understanding while reducing reliance on manually annotated data. Extensive experiments on three long-form video understanding benchmarks--LongVideoBench, MLVU, and Video-MME--demonstrate the effectiveness of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO establishes itself as the leading 7B model on the Video-MME benchmark, underscoring the potential of TPO as a scalable and efficient solution for advancing temporal reasoning in long-form video understanding. Project page: https://ruili33.github.io/tpo_website.

Summary

AI-Generated Summary

PDF223January 24, 2025