ChatPaper.aiChatPaper

PerceptionLM: 세밀한 시각적 이해를 위한 오픈 액세스 데이터 및 모델

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

April 17, 2025
저자: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
cs.AI

초록

비전-언어 모델은 컴퓨터 비전 연구에서 핵심적인 역할을 하지만, 많은 고성능 모델들이 여전히 폐쇄적이며, 그들의 데이터, 설계 및 학습 방법이 공개되지 않고 있습니다. 연구 커뮤니티는 블랙박스 모델로부터의 지식을 추출하여 학습 데이터에 레이블을 부여하는 방식으로 강력한 벤치마크 결과를 달성했지만, 이는 과학적 진보를 측정하기 어렵게 만드는 비용을 치렀습니다. 그러나 교사 모델과 그 데이터 소스의 세부 사항을 알지 못하면 과학적 진보를 측정하기가 여전히 어렵습니다. 본 논문에서는 이미지 및 비디오 이해를 위한 투명한 연구를 위해 완전히 개방적이고 재현 가능한 프레임워크 내에서 Perception Language Model (PLM)을 구축하는 방법을 연구합니다. 우리는 독점 모델로부터의 지식 추출 없이 표준 학습 파이프라인을 분석하고, 대규모 합성 데이터를 탐구하여 특히 세밀한 비디오 이해에서의 중요한 데이터 격차를 식별합니다. 이러한 격차를 해소하기 위해, 우리는 280만 개의 인간이 레이블한 세밀한 비디오 질문-답변 쌍과 시공간적으로 근거가 있는 비디오 캡션을 공개합니다. 또한, 비디오의 "무엇", "어디", "언제", "어떻게"에 대한 추론 능력에 초점을 맞춘 도전적인 비디오 이해 작업을 평가하기 위한 PLM-VideoBench를 소개합니다. 우리는 데이터, 학습 방법, 코드 및 모델을 제공함으로써 우리의 작업이 완전히 재현 가능하도록 합니다.
English
Vision-language models are integral to computer vision research, yet many high-performing models remain closed-source, obscuring their data, design and training recipe. The research community has responded by using distillation from black-box models to label training data, achieving strong benchmark results, at the cost of measurable scientific progress. However, without knowing the details of the teacher model and its data sources, scientific progress remains difficult to measure. In this paper, we study building a Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding. We analyze standard training pipelines without distillation from proprietary models and explore large-scale synthetic data to identify critical data gaps, particularly in detailed video understanding. To bridge these gaps, we release 2.8M human-labeled instances of fine-grained video question-answer pairs and spatio-temporally grounded video captions. Additionally, we introduce PLM-VideoBench, a suite for evaluating challenging video understanding tasks focusing on the ability to reason about "what", "where", "when", and "how" of a video. We make our work fully reproducible by providing data, training recipes, code & models.

Summary

AI-Generated Summary

PDF172April 18, 2025