ChatPaper.aiChatPaper

Wolf : Légender tout avec un cadre de synthèse mondiale

Wolf: Captioning Everything with a World Summarization Framework

July 26, 2024
Auteurs: Boyi Li, Ligeng Zhu, Ran Tian, Shuhan Tan, Yuxiao Chen, Yao Lu, Yin Cui, Sushant Veer, Max Ehrlich, Jonah Philion, Xinshuo Weng, Fuzhao Xue, Andrew Tao, Ming-Yu Liu, Sanja Fidler, Boris Ivanovic, Trevor Darrell, Jitendra Malik, Song Han, Marco Pavone
cs.AI

Résumé

Nous proposons Wolf, un cadre de synthèse WOrLd pour la génération précise de légendes vidéo. Wolf est un cadre automatisé de légendage qui adopte une approche de mélange d'experts, exploitant les forces complémentaires des modèles de langage visuel (VLMs). En utilisant à la fois des modèles d'image et de vidéo, notre cadre capture différents niveaux d'information et les résume efficacement. Notre approche peut être appliquée pour améliorer la compréhension vidéo, l'étiquetage automatique et la génération de légendes. Pour évaluer la qualité des légendes, nous introduisons CapScore, une métrique basée sur un modèle de langage (LLM) pour évaluer la similarité et la qualité des légendes générées par rapport aux légendes de référence. Nous construisons en outre quatre ensembles de données annotés manuellement dans trois domaines : conduite autonome, scènes générales et robotique, afin de faciliter des comparaisons exhaustives. Nous montrons que Wolf atteint des performances de légendage supérieures par rapport aux approches de pointe de la communauté de recherche (VILA1.5, CogAgent) et aux solutions commerciales (Gemini-Pro-1.5, GPT-4V). Par exemple, par rapport à GPT-4V, Wolf améliore CapScore en termes de qualité de 55,6 % et en termes de similarité de 77,4 % sur des vidéos de conduite difficiles. Enfin, nous établissons un benchmark pour la génération de légendes vidéo et introduisons un classement, dans le but d'accélérer les avancées dans la compréhension vidéo, la génération de légendes et l'alignement des données. Classement : https://wolfv0.github.io/leaderboard.html.
English
We propose Wolf, a WOrLd summarization Framework for accurate video captioning. Wolf is an automated captioning framework that adopts a mixture-of-experts approach, leveraging complementary strengths of Vision Language Models (VLMs). By utilizing both image and video models, our framework captures different levels of information and summarizes them efficiently. Our approach can be applied to enhance video understanding, auto-labeling, and captioning. To evaluate caption quality, we introduce CapScore, an LLM-based metric to assess the similarity and quality of generated captions compared to the ground truth captions. We further build four human-annotated datasets in three domains: autonomous driving, general scenes, and robotics, to facilitate comprehensive comparisons. We show that Wolf achieves superior captioning performance compared to state-of-the-art approaches from the research community (VILA1.5, CogAgent) and commercial solutions (Gemini-Pro-1.5, GPT-4V). For instance, in comparison with GPT-4V, Wolf improves CapScore both quality-wise by 55.6% and similarity-wise by 77.4% on challenging driving videos. Finally, we establish a benchmark for video captioning and introduce a leaderboard, aiming to accelerate advancements in video understanding, captioning, and data alignment. Leaderboard: https://wolfv0.github.io/leaderboard.html.

Summary

AI-Generated Summary

PDF332November 28, 2024