ChatPaper.aiChatPaper

PerceptionLM : Données et modèles en accès libre pour une compréhension visuelle détaillée

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

April 17, 2025
Auteurs: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
cs.AI

Résumé

Les modèles vision-langage sont essentiels à la recherche en vision par ordinateur, mais de nombreux modèles à hautes performances restent fermés, obscurcissant leurs données, leur conception et leur méthode d'entraînement. La communauté de recherche a répondu en utilisant la distillation de modèles boîte noire pour annoter les données d'entraînement, obtenant ainsi de solides résultats sur les benchmarks, au détriment d'un progrès scientifique mesurable. Cependant, sans connaître les détails du modèle enseignant et de ses sources de données, il reste difficile de mesurer l'avancée scientifique. Dans cet article, nous étudions la construction d'un modèle de perception langagière (PLM) dans un cadre entièrement ouvert et reproductible pour une recherche transparente dans la compréhension d'images et de vidéos. Nous analysons les pipelines d'entraînement standard sans distillation de modèles propriétaires et explorons les données synthétiques à grande échelle pour identifier les lacunes critiques, notamment dans la compréhension détaillée des vidéos. Pour combler ces lacunes, nous publions 2,8 millions d'instances annotées manuellement de paires question-réponse fines sur des vidéos et de descriptions vidéo ancrées spatio-temporellement. De plus, nous introduisons PLM-VideoBench, une suite pour évaluer des tâches complexes de compréhension vidéo, en se concentrant sur la capacité à raisonner sur le "quoi", le "où", le "quand" et le "comment" d'une vidéo. Nous rendons notre travail entièrement reproductible en fournissant les données, les méthodes d'entraînement, le code et les modèles.
English
Vision-language models are integral to computer vision research, yet many high-performing models remain closed-source, obscuring their data, design and training recipe. The research community has responded by using distillation from black-box models to label training data, achieving strong benchmark results, at the cost of measurable scientific progress. However, without knowing the details of the teacher model and its data sources, scientific progress remains difficult to measure. In this paper, we study building a Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding. We analyze standard training pipelines without distillation from proprietary models and explore large-scale synthetic data to identify critical data gaps, particularly in detailed video understanding. To bridge these gaps, we release 2.8M human-labeled instances of fine-grained video question-answer pairs and spatio-temporally grounded video captions. Additionally, we introduce PLM-VideoBench, a suite for evaluating challenging video understanding tasks focusing on the ability to reason about "what", "where", "when", and "how" of a video. We make our work fully reproducible by providing data, training recipes, code & models.

Summary

AI-Generated Summary

PDF172April 18, 2025