PerceptionLM: Open-Access Data en Modellen voor Gedetailleerd Visueel Begrip
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
April 17, 2025
Auteurs: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
cs.AI
Samenvatting
Vision-language modellen zijn essentieel voor onderzoek in computervisie, maar veel hoogpresterende modellen blijven closed-source, waardoor hun data, ontwerp en trainingsproces verborgen blijven. De onderzoeksgemeenschap heeft hierop gereageerd door distillatie van black-box modellen te gebruiken om trainingsdata te labelen, wat sterke benchmarkresultaten oplevert, maar ten koste gaat van meetbare wetenschappelijke vooruitgang. Zonder kennis van de details van het leraarmodel en zijn databronnen blijft wetenschappelijke vooruitgang echter moeilijk te meten. In dit artikel bestuderen we het bouwen van een Perception Language Model (PLM) in een volledig open en reproduceerbaar raamwerk voor transparant onderzoek in beeld- en videobegrip. We analyseren standaard trainingspijplijnen zonder distillatie van propriëtaire modellen en onderzoeken grootschalige synthetische data om kritieke datalacunes te identificeren, met name in gedetailleerd videobegrip. Om deze lacunes te overbruggen, publiceren we 2,8 miljoen door mensen gelabelde voorbeelden van fijnmazige video vraag-antwoordparen en ruimtelijk-temporeel verankerde videobijschriften. Daarnaast introduceren we PLM-VideoBench, een suite voor het evalueren van uitdagende videobegriptaken die zich richten op het vermogen om te redeneren over het "wat", "waar", "wanneer" en "hoe" van een video. We maken ons werk volledig reproduceerbaar door data, trainingsrecepten, code en modellen beschikbaar te stellen.
English
Vision-language models are integral to computer vision research, yet many
high-performing models remain closed-source, obscuring their data, design and
training recipe. The research community has responded by using distillation
from black-box models to label training data, achieving strong benchmark
results, at the cost of measurable scientific progress. However, without
knowing the details of the teacher model and its data sources, scientific
progress remains difficult to measure. In this paper, we study building a
Perception Language Model (PLM) in a fully open and reproducible framework for
transparent research in image and video understanding. We analyze standard
training pipelines without distillation from proprietary models and explore
large-scale synthetic data to identify critical data gaps, particularly in
detailed video understanding. To bridge these gaps, we release 2.8M
human-labeled instances of fine-grained video question-answer pairs and
spatio-temporally grounded video captions. Additionally, we introduce
PLM-VideoBench, a suite for evaluating challenging video understanding tasks
focusing on the ability to reason about "what", "where", "when", and "how" of a
video. We make our work fully reproducible by providing data, training recipes,
code & models.Summary
AI-Generated Summary