PerceptionLM: Открытые данные и модели для детального визуального восприятия
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
April 17, 2025
Авторы: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
cs.AI
Аннотация
Модели, объединяющие зрение и язык, играют ключевую роль в исследованиях в области компьютерного зрения, однако многие высокопроизводительные модели остаются закрытыми, что скрывает их данные, архитектуру и процесс обучения. Научное сообщество ответило на это использованием дистилляции из моделей с закрытой архитектурой для маркировки обучающих данных, что позволило достичь высоких результатов на бенчмарках, но за счёт измеримого научного прогресса. Однако без знания деталей модели-учителя и её источников данных измерение научного прогресса остаётся затруднительным. В данной статье мы исследуем создание Модели Восприятия и Языка (PLM) в полностью открытой и воспроизводимой среде для прозрачных исследований в области понимания изображений и видео. Мы анализируем стандартные подходы к обучению без использования дистилляции из проприетарных моделей и исследуем крупномасштабные синтетические данные для выявления критических пробелов, особенно в детальном понимании видео. Чтобы устранить эти пробелы, мы публикуем 2,8 миллиона человечески размеченных примеров тонко структурированных пар вопрос-ответ по видео и пространственно-временных описаний видео. Кроме того, мы представляем PLM-VideoBench — набор инструментов для оценки сложных задач понимания видео, фокусирующихся на способности рассуждать о «что», «где», «когда» и «как» в видео. Мы обеспечиваем полную воспроизводимость нашей работы, предоставляя данные, рецепты обучения, код и модели.
English
Vision-language models are integral to computer vision research, yet many
high-performing models remain closed-source, obscuring their data, design and
training recipe. The research community has responded by using distillation
from black-box models to label training data, achieving strong benchmark
results, at the cost of measurable scientific progress. However, without
knowing the details of the teacher model and its data sources, scientific
progress remains difficult to measure. In this paper, we study building a
Perception Language Model (PLM) in a fully open and reproducible framework for
transparent research in image and video understanding. We analyze standard
training pipelines without distillation from proprietary models and explore
large-scale synthetic data to identify critical data gaps, particularly in
detailed video understanding. To bridge these gaps, we release 2.8M
human-labeled instances of fine-grained video question-answer pairs and
spatio-temporally grounded video captions. Additionally, we introduce
PLM-VideoBench, a suite for evaluating challenging video understanding tasks
focusing on the ability to reason about "what", "where", "when", and "how" of a
video. We make our work fully reproducible by providing data, training recipes,
code & models.