PerceptionLM : Données et modèles en accès libre pour une compréhension visuelle détaillée
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
April 17, 2025
Auteurs: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
cs.AI
Résumé
Les modèles vision-langage sont essentiels à la recherche en vision par ordinateur, mais de nombreux modèles à hautes performances restent fermés, obscurcissant leurs données, leur conception et leur méthode d'entraînement. La communauté de recherche a répondu en utilisant la distillation de modèles boîte noire pour annoter les données d'entraînement, obtenant ainsi de solides résultats sur les benchmarks, au détriment d'un progrès scientifique mesurable. Cependant, sans connaître les détails du modèle enseignant et de ses sources de données, il reste difficile de mesurer l'avancée scientifique. Dans cet article, nous étudions la construction d'un modèle de perception langagière (PLM) dans un cadre entièrement ouvert et reproductible pour une recherche transparente dans la compréhension d'images et de vidéos. Nous analysons les pipelines d'entraînement standard sans distillation de modèles propriétaires et explorons les données synthétiques à grande échelle pour identifier les lacunes critiques, notamment dans la compréhension détaillée des vidéos. Pour combler ces lacunes, nous publions 2,8 millions d'instances annotées manuellement de paires question-réponse fines sur des vidéos et de descriptions vidéo ancrées spatio-temporellement. De plus, nous introduisons PLM-VideoBench, une suite pour évaluer des tâches complexes de compréhension vidéo, en se concentrant sur la capacité à raisonner sur le "quoi", le "où", le "quand" et le "comment" d'une vidéo. Nous rendons notre travail entièrement reproductible en fournissant les données, les méthodes d'entraînement, le code et les modèles.
English
Vision-language models are integral to computer vision research, yet many
high-performing models remain closed-source, obscuring their data, design and
training recipe. The research community has responded by using distillation
from black-box models to label training data, achieving strong benchmark
results, at the cost of measurable scientific progress. However, without
knowing the details of the teacher model and its data sources, scientific
progress remains difficult to measure. In this paper, we study building a
Perception Language Model (PLM) in a fully open and reproducible framework for
transparent research in image and video understanding. We analyze standard
training pipelines without distillation from proprietary models and explore
large-scale synthetic data to identify critical data gaps, particularly in
detailed video understanding. To bridge these gaps, we release 2.8M
human-labeled instances of fine-grained video question-answer pairs and
spatio-temporally grounded video captions. Additionally, we introduce
PLM-VideoBench, a suite for evaluating challenging video understanding tasks
focusing on the ability to reason about "what", "where", "when", and "how" of a
video. We make our work fully reproducible by providing data, training recipes,
code & models.Summary
AI-Generated Summary