Ottimizzazione delle Preferenze Temporali per la Comprensione dei Video a Lunghezza Estesa

Abstract

Nonostante i significativi progressi nei modelli video multimodali di grandi dimensioni (video-LMMs), raggiungere un ancoraggio temporale efficace in video a lunga durata rimane una sfida per i modelli esistenti. Per affrontare questa limitazione, proponiamo l'ottimizzazione delle preferenze temporali (TPO), un nuovo framework di post-training progettato per potenziare le capacità di ancoraggio temporale dei video-LMMs attraverso l'apprendimento delle preferenze. TPO adotta un approccio di auto-apprendimento che consente ai modelli di differenziare tra risposte temporali ben ancorate e meno accurate sfruttando set di dati di preferenza curati a due livelli di granularità: ancoraggio temporale localizzato, che si concentra su segmenti video specifici, e ancoraggio temporale completo, che cattura estese dipendenze temporali in sequenze video intere. Ottimizzando su questi set di dati di preferenza, TPO potenzia significativamente la comprensione temporale riducendo al contempo la dipendenza dai dati annotati manualmente. Estesi esperimenti su tre benchmark di comprensione video a lunga durata - LongVideoBench, MLVU e Video-MME - dimostrano l'efficacia di TPO su due modelli video-LMMs all'avanguardia. In particolare, LLaVA-Video-TPO si afferma come il principale modello 7B nel benchmark Video-MME, sottolineando il potenziale di TPO come soluzione scalabile ed efficiente per avanzare nel ragionamento temporale nella comprensione video a lunga durata. Pagina del progetto: https://ruili33.github.io/tpo_website.

English

Despite significant advancements in video large multimodal models (video-LMMs), achieving effective temporal grounding in long-form videos remains a challenge for existing models. To address this limitation, we propose Temporal Preference Optimization (TPO), a novel post-training framework designed to enhance the temporal grounding capabilities of video-LMMs through preference learning. TPO adopts a self-training approach that enables models to differentiate between well-grounded and less accurate temporal responses by leveraging curated preference datasets at two granularities: localized temporal grounding, which focuses on specific video segments, and comprehensive temporal grounding, which captures extended temporal dependencies across entire video sequences. By optimizing on these preference datasets, TPO significantly enhances temporal understanding while reducing reliance on manually annotated data. Extensive experiments on three long-form video understanding benchmarks--LongVideoBench, MLVU, and Video-MME--demonstrate the effectiveness of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO establishes itself as the leading 7B model on the Video-MME benchmark, underscoring the potential of TPO as a scalable and efficient solution for advancing temporal reasoning in long-form video understanding. Project page: https://ruili33.github.io/tpo_website.

Ottimizzazione delle Preferenze Temporali per la Comprensione dei Video a Lunghezza Estesa

Temporal Preference Optimization for Long-Form Video Understanding

Abstract

Support