PerceptionLM: Dados e Modelos de Acesso Aberto para Compreensão Visual Detalhada
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
April 17, 2025
Autores: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
cs.AI
Resumo
Modelos visão-linguagem são fundamentais para a pesquisa em visão computacional, mas muitos modelos de alto desempenho permanecem de código fechado, obscurecendo seus dados, design e receita de treinamento. A comunidade de pesquisa respondeu utilizando a destilação de modelos de caixa preta para rotular dados de treinamento, alcançando resultados robustos em benchmarks, mas ao custo de um progresso científico mensurável. No entanto, sem conhecer os detalhes do modelo professor e suas fontes de dados, o progresso científico permanece difícil de medir. Neste artigo, estudamos a construção de um Modelo de Linguagem de Percepção (PLM) em um framework totalmente aberto e reproduzível para pesquisa transparente em compreensão de imagens e vídeos. Analisamos pipelines de treinamento padrão sem destilação de modelos proprietários e exploramos dados sintéticos em grande escala para identificar lacunas críticas de dados, particularmente na compreensão detalhada de vídeos. Para preencher essas lacunas, disponibilizamos 2,8 milhões de instâncias rotuladas por humanos de pares de perguntas e respostas de vídeo de granularidade fina e legendas de vídeo com ancoragem espaço-temporal. Além disso, introduzimos o PLM-VideoBench, um conjunto de ferramentas para avaliar tarefas desafiadoras de compreensão de vídeo, focando na capacidade de raciocinar sobre "o quê", "onde", "quando" e "como" de um vídeo. Tornamos nosso trabalho totalmente reproduzível ao fornecer dados, receitas de treinamento, código e modelos.
English
Vision-language models are integral to computer vision research, yet many
high-performing models remain closed-source, obscuring their data, design and
training recipe. The research community has responded by using distillation
from black-box models to label training data, achieving strong benchmark
results, at the cost of measurable scientific progress. However, without
knowing the details of the teacher model and its data sources, scientific
progress remains difficult to measure. In this paper, we study building a
Perception Language Model (PLM) in a fully open and reproducible framework for
transparent research in image and video understanding. We analyze standard
training pipelines without distillation from proprietary models and explore
large-scale synthetic data to identify critical data gaps, particularly in
detailed video understanding. To bridge these gaps, we release 2.8M
human-labeled instances of fine-grained video question-answer pairs and
spatio-temporally grounded video captions. Additionally, we introduce
PLM-VideoBench, a suite for evaluating challenging video understanding tasks
focusing on the ability to reason about "what", "where", "when", and "how" of a
video. We make our work fully reproducible by providing data, training recipes,
code & models.Summary
AI-Generated Summary