Perception Encoder: 최고의 시각적 임베딩은 네트워크의 출력 단계에 위치하지 않는다
Perception Encoder: The best visual embeddings are not at the output of the network
April 17, 2025
저자: Daniel Bolya, Po-Yao Huang, Peize Sun, Jang Hyun Cho, Andrea Madotto, Chen Wei, Tengyu Ma, Jiale Zhi, Jathushan Rajasegaran, Hanoona Rasheed, Junke Wang, Marco Monteiro, Hu Xu, Shiyu Dong, Nikhila Ravi, Daniel Li, Piotr Dollár, Christoph Feichtenhofer
cs.AI
초록
우리는 단순한 시각-언어 학습을 통해 훈련된 이미지 및 비디오 이해를 위한 최첨단 인코더인 Perception Encoder(PE)를 소개합니다. 전통적으로 시각 인코더는 분류, 캡셔닝, 위치 파악과 같은 특정 하위 작업에 맞춰진 다양한 사전 훈련 목표에 의존해 왔습니다. 놀랍게도, 우리가 세심하게 조정한 이미지 사전 훈련 레시피를 확장하고 강력한 비디오 데이터 엔진으로 정제한 후, 대조적 시각-언어 훈련만으로도 이러한 모든 하위 작업에 강력하고 일반적인 임베딩을 생성할 수 있음을 발견했습니다. 단 하나의 주의 사항은 이러한 임베딩이 네트워크의 중간 계층에 숨겨져 있다는 것입니다. 이를 추출하기 위해, 우리는 다중 모달 언어 모델링을 위한 언어 정렬과 밀집 예측을 위한 공간 정렬이라는 두 가지 정렬 방법을 도입했습니다. 핵심 대조적 체크포인트와 함께, 우리의 PE 모델 제품군은 제로샷 이미지 및 비디오 분류 및 검색; 문서, 이미지, 비디오 Q&A; 그리고 탐지, 깊이 추정, 추적과 같은 공간 작업을 포함한 다양한 작업에서 최첨단 성능을 달성했습니다. 더 나아가 연구를 촉진하기 위해, 우리는 모델, 코드, 그리고 합성 및 인간 주석이 달린 비디오의 새로운 데이터셋을 공개하고 있습니다.
English
We introduce Perception Encoder (PE), a state-of-the-art encoder for image
and video understanding trained via simple vision-language learning.
Traditionally, vision encoders have relied on a variety of pretraining
objectives, each tailored to specific downstream tasks such as classification,
captioning, or localization. Surprisingly, after scaling our carefully tuned
image pretraining recipe and refining with our robust video data engine, we
find that contrastive vision-language training alone can produce strong,
general embeddings for all of these downstream tasks. There is only one caveat:
these embeddings are hidden within the intermediate layers of the network. To
draw them out, we introduce two alignment methods, language alignment for
multimodal language modeling, and spatial alignment for dense prediction.
Together with the core contrastive checkpoint, our PE family of models achieves
state-of-the-art performance on a wide variety of tasks, including zero-shot
image and video classification and retrieval; document, image, and video Q&A;
and spatial tasks such as detection, depth estimation, and tracking. To foster
further research, we are releasing our models, code, and a novel dataset of
synthetically and human-annotated videos.Summary
AI-Generated Summary