MovieLLM : Amélioration de la compréhension des vidéos longues grâce à des films générés par l'IA
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies
March 3, 2024
Auteurs: Zhende Song, Chenchen Wang, Jiamu Sheng, Chi Zhang, Gang Yu, Jiayuan Fan, Tao Chen
cs.AI
Résumé
Le développement de modèles multimodaux a marqué une avancée significative dans la manière dont les machines comprennent les vidéos. Ces modèles ont montré des résultats prometteurs dans l'analyse de courts clips vidéo. Cependant, lorsqu'il s'agit de formats plus longs comme les films, ils rencontrent souvent des limites. Les principaux obstacles sont le manque de données vidéo de haute qualité et diversifiées, ainsi que le travail intensif requis pour collecter ou annoter de telles données. Face à ces défis, nous proposons MovieLLM, un cadre novateur conçu pour générer des données synthétiques de haute qualité pour les vidéos longues. Ce cadre exploite la puissance de GPT-4 et des modèles de texte-à-image pour produire des scripts détaillés et des visuels correspondants. Notre approche se distingue par sa flexibilité et son évolutivité, en faisant une alternative supérieure aux méthodes traditionnelles de collecte de données. Nos expérimentations approfondies valident que les données produites par MovieLLM améliorent significativement les performances des modèles multimodaux dans la compréhension des récits vidéo complexes, surmontant ainsi les limitations des jeux de données existants en termes de rareté et de biais.
English
The development of multimodal models has marked a significant step forward in
how machines understand videos. These models have shown promise in analyzing
short video clips. However, when it comes to longer formats like movies, they
often fall short. The main hurdles are the lack of high-quality, diverse video
data and the intensive work required to collect or annotate such data. In the
face of these challenges, we propose MovieLLM, a novel framework designed to
create synthetic, high-quality data for long videos. This framework leverages
the power of GPT-4 and text-to-image models to generate detailed scripts and
corresponding visuals. Our approach stands out for its flexibility and
scalability, making it a superior alternative to traditional data collection
methods. Our extensive experiments validate that the data produced by MovieLLM
significantly improves the performance of multimodal models in understanding
complex video narratives, overcoming the limitations of existing datasets
regarding scarcity and bias.