PerceptionLM: Offene Daten und Modelle für detailliertes visuelles Verständnis
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
April 17, 2025
Autoren: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
cs.AI
Zusammenfassung
Vision-Language-Modelle sind ein integraler Bestandteil der Computer-Vision-Forschung, doch viele leistungsstarke Modelle bleiben Closed-Source, wodurch ihre Daten, ihr Design und ihre Trainingsmethoden im Verborgenen bleiben. Die Forschungsgemeinschaft hat darauf reagiert, indem sie Distillation von Black-Box-Modellen zur Beschriftung von Trainingsdaten verwendet hat, was starke Benchmark-Ergebnisse erzielt, jedoch auf Kosten eines messbaren wissenschaftlichen Fortschritts. Ohne die Details des Lehrer-Modells und seiner Datenquellen zu kennen, bleibt der wissenschaftliche Fortschritt jedoch schwer zu messen. In diesem Artikel untersuchen wir den Aufbau eines Perception Language Model (PLM) in einem vollständig offenen und reproduzierbaren Framework für transparente Forschung im Bereich der Bild- und Videoanalyse. Wir analysieren Standard-Trainingspipeline ohne Distillation von proprietären Modellen und erforschen groß angelegte synthetische Daten, um kritische Datenlücken zu identifizieren, insbesondere bei der detaillierten Videoanalyse. Um diese Lücken zu schließen, veröffentlichen wir 2,8 Millionen menschlich beschriftete Instanzen von fein abgestimmten Video-Frage-Antwort-Paaren und räumlich-zeitlich verankerten Video-Beschreibungen. Zusätzlich führen wir PLM-VideoBench ein, eine Suite zur Bewertung anspruchsvoller Videoanalyse-Aufgaben, die sich auf die Fähigkeit konzentriert, das „Was“, „Wo“, „Wann“ und „Wie“ eines Videos zu verstehen. Wir machen unsere Arbeit vollständig reproduzierbar, indem wir Daten, Trainingsmethoden, Code und Modelle bereitstellen.
English
Vision-language models are integral to computer vision research, yet many
high-performing models remain closed-source, obscuring their data, design and
training recipe. The research community has responded by using distillation
from black-box models to label training data, achieving strong benchmark
results, at the cost of measurable scientific progress. However, without
knowing the details of the teacher model and its data sources, scientific
progress remains difficult to measure. In this paper, we study building a
Perception Language Model (PLM) in a fully open and reproducible framework for
transparent research in image and video understanding. We analyze standard
training pipelines without distillation from proprietary models and explore
large-scale synthetic data to identify critical data gaps, particularly in
detailed video understanding. To bridge these gaps, we release 2.8M
human-labeled instances of fine-grained video question-answer pairs and
spatio-temporally grounded video captions. Additionally, we introduce
PLM-VideoBench, a suite for evaluating challenging video understanding tasks
focusing on the ability to reason about "what", "where", "when", and "how" of a
video. We make our work fully reproducible by providing data, training recipes,
code & models.Summary
AI-Generated Summary