PerceptionLM: Dati e Modelli ad Accesso Aperto per la Comprensione Visiva Dettagliata
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
April 17, 2025
Autori: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
cs.AI
Abstract
I modelli visione-linguaggio sono fondamentali per la ricerca in computer vision, tuttavia molti modelli ad alte prestazioni rimangono closed-source, oscurando i loro dati, il design e le procedure di addestramento. La comunità di ricerca ha risposto utilizzando la distillazione da modelli black-box per etichettare i dati di training, ottenendo risultati forti nei benchmark, a scapito di un progresso scientifico misurabile. Tuttavia, senza conoscere i dettagli del modello insegnante e delle sue fonti di dati, il progresso scientifico rimane difficile da misurare. In questo articolo, studiamo la costruzione di un Perception Language Model (PLM) in un framework completamente aperto e riproducibile per una ricerca trasparente nella comprensione di immagini e video. Analizziamo le pipeline di addestramento standard senza distillazione da modelli proprietari ed esploriamo dati sintetici su larga scala per identificare lacune critiche nei dati, in particolare nella comprensione dettagliata dei video. Per colmare queste lacune, rilasciamo 2,8 milioni di istanze etichettate manualmente di coppie domanda-risposta video a grana fine e didascalie video con ancoraggio spazio-temporale. Inoltre, introduciamo PLM-VideoBench, una suite per valutare compiti impegnativi di comprensione video, focalizzata sulla capacità di ragionare su "cosa", "dove", "quando" e "come" di un video. Rendiamo il nostro lavoro completamente riproducibile fornendo dati, procedure di addestramento, codice e modelli.
English
Vision-language models are integral to computer vision research, yet many
high-performing models remain closed-source, obscuring their data, design and
training recipe. The research community has responded by using distillation
from black-box models to label training data, achieving strong benchmark
results, at the cost of measurable scientific progress. However, without
knowing the details of the teacher model and its data sources, scientific
progress remains difficult to measure. In this paper, we study building a
Perception Language Model (PLM) in a fully open and reproducible framework for
transparent research in image and video understanding. We analyze standard
training pipelines without distillation from proprietary models and explore
large-scale synthetic data to identify critical data gaps, particularly in
detailed video understanding. To bridge these gaps, we release 2.8M
human-labeled instances of fine-grained video question-answer pairs and
spatio-temporally grounded video captions. Additionally, we introduce
PLM-VideoBench, a suite for evaluating challenging video understanding tasks
focusing on the ability to reason about "what", "where", "when", and "how" of a
video. We make our work fully reproducible by providing data, training recipes,
code & models.Summary
AI-Generated Summary