PerceptionLM: Datos y Modelos de Acceso Abierto para la Comprensión Visual Detallada
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
April 17, 2025
Autores: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
cs.AI
Resumen
Los modelos de visión-lenguaje son fundamentales para la investigación en visión por computadora, sin embargo, muchos modelos de alto rendimiento permanecen cerrados, ocultando sus datos, diseño y receta de entrenamiento. La comunidad investigadora ha respondido utilizando la destilación de modelos de caja negra para etiquetar datos de entrenamiento, logrando resultados sólidos en benchmarks, a costa de un progreso científico medible. Sin embargo, sin conocer los detalles del modelo maestro y sus fuentes de datos, el progreso científico sigue siendo difícil de medir. En este artículo, estudiamos la construcción de un Modelo de Lenguaje de Percepción (PLM, por sus siglas en inglés) en un marco completamente abierto y reproducible para una investigación transparente en la comprensión de imágenes y videos. Analizamos pipelines de entrenamiento estándar sin destilación de modelos propietarios y exploramos datos sintéticos a gran escala para identificar brechas críticas en los datos, particularmente en la comprensión detallada de videos. Para cerrar estas brechas, publicamos 2.8 millones de instancias etiquetadas manualmente de pares de preguntas-respuestas de video de grano fino y descripciones de videos ancladas espacio-temporalmente. Además, presentamos PLM-VideoBench, un conjunto de herramientas para evaluar tareas desafiantes de comprensión de videos, centrándose en la capacidad de razonar sobre el "qué", "dónde", "cuándo" y "cómo" de un video. Hacemos nuestro trabajo completamente reproducible proporcionando datos, recetas de entrenamiento, código y modelos.
English
Vision-language models are integral to computer vision research, yet many
high-performing models remain closed-source, obscuring their data, design and
training recipe. The research community has responded by using distillation
from black-box models to label training data, achieving strong benchmark
results, at the cost of measurable scientific progress. However, without
knowing the details of the teacher model and its data sources, scientific
progress remains difficult to measure. In this paper, we study building a
Perception Language Model (PLM) in a fully open and reproducible framework for
transparent research in image and video understanding. We analyze standard
training pipelines without distillation from proprietary models and explore
large-scale synthetic data to identify critical data gaps, particularly in
detailed video understanding. To bridge these gaps, we release 2.8M
human-labeled instances of fine-grained video question-answer pairs and
spatio-temporally grounded video captions. Additionally, we introduce
PLM-VideoBench, a suite for evaluating challenging video understanding tasks
focusing on the ability to reason about "what", "where", "when", and "how" of a
video. We make our work fully reproducible by providing data, training recipes,
code & models.Summary
AI-Generated Summary