Otimização de Preferência Temporal para Compreensão de Vídeos de Longa Duração
Temporal Preference Optimization for Long-Form Video Understanding
January 23, 2025
Autores: Rui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy
cs.AI
Resumo
Apesar dos avanços significativos em modelos multimodais grandes de vídeo (video-LMMs), alcançar um enquadramento temporal eficaz em vídeos de longa duração continua sendo um desafio para os modelos existentes. Para lidar com essa limitação, propomos a Otimização de Preferência Temporal (TPO), um novo framework pós-treinamento projetado para aprimorar as capacidades de enquadramento temporal dos video-LMMs por meio de aprendizado de preferência. O TPO adota uma abordagem de autoaprendizagem que permite aos modelos diferenciar entre respostas temporais bem fundamentadas e menos precisas, utilizando conjuntos de dados de preferência curados em duas granularidades: enquadramento temporal localizado, que se concentra em segmentos de vídeo específicos, e enquadramento temporal abrangente, que captura dependências temporais estendidas em sequências de vídeo inteiras. Ao otimizar nesses conjuntos de dados de preferência, o TPO aprimora significativamente a compreensão temporal, reduzindo a dependência de dados anotados manualmente. Experimentos extensivos em três benchmarks de compreensão de vídeo de longa duração - LongVideoBench, MLVU e Video-MME - demonstram a eficácia do TPO em dois modelos de video-LMMs de última geração. Notavelmente, o LLaVA-Video-TPO se estabelece como o principal modelo 7B no benchmark Video-MME, destacando o potencial do TPO como uma solução escalável e eficiente para avançar no raciocínio temporal na compreensão de vídeo de longa duração. Página do projeto: https://ruili33.github.io/tpo_website.
English
Despite significant advancements in video large multimodal models
(video-LMMs), achieving effective temporal grounding in long-form videos
remains a challenge for existing models. To address this limitation, we propose
Temporal Preference Optimization (TPO), a novel post-training framework
designed to enhance the temporal grounding capabilities of video-LMMs through
preference learning. TPO adopts a self-training approach that enables models to
differentiate between well-grounded and less accurate temporal responses by
leveraging curated preference datasets at two granularities: localized temporal
grounding, which focuses on specific video segments, and comprehensive temporal
grounding, which captures extended temporal dependencies across entire video
sequences. By optimizing on these preference datasets, TPO significantly
enhances temporal understanding while reducing reliance on manually annotated
data. Extensive experiments on three long-form video understanding
benchmarks--LongVideoBench, MLVU, and Video-MME--demonstrate the effectiveness
of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO
establishes itself as the leading 7B model on the Video-MME benchmark,
underscoring the potential of TPO as a scalable and efficient solution for
advancing temporal reasoning in long-form video understanding. Project page:
https://ruili33.github.io/tpo_website.Summary
AI-Generated Summary