Perceptie-encoder: De beste visuele embeddings bevinden zich niet aan de uitvoer van het netwerk
Perception Encoder: The best visual embeddings are not at the output of the network
April 17, 2025
Auteurs: Daniel Bolya, Po-Yao Huang, Peize Sun, Jang Hyun Cho, Andrea Madotto, Chen Wei, Tengyu Ma, Jiale Zhi, Jathushan Rajasegaran, Hanoona Rasheed, Junke Wang, Marco Monteiro, Hu Xu, Shiyu Dong, Nikhila Ravi, Daniel Li, Piotr Dollár, Christoph Feichtenhofer
cs.AI
Samenvatting
We introduceren de Perception Encoder (PE), een state-of-the-art encoder voor beeld- en videobegrip die getraind is via eenvoudige visie-taal-leren. Traditioneel hebben visie-encoders vertrouwd op een verscheidenheid aan vooraf getrainde doelstellingen, elk afgestemd op specifieke downstream taken zoals classificatie, bijschriften of lokalisatie. Verrassend genoeg ontdekken we, na het opschalen van ons zorgvuldig afgestemde beeldpretrainingsrecept en verfijning met onze robuuste videodata-engine, dat contrastief visie-taal-trainen alleen al sterke, algemene embeddings kan produceren voor al deze downstream taken. Er is slechts één voorbehoud: deze embeddings zijn verborgen in de tussenliggende lagen van het netwerk. Om deze naar voren te halen, introduceren we twee uitlijningsmethoden: taaluitlijning voor multimodale taalmodellering en ruimtelijke uitlijning voor dichte voorspelling. Samen met het kerncontrastieve checkpoint bereikt onze PE-familie van modellen state-of-the-art prestaties op een breed scala aan taken, waaronder zero-shot beeld- en videoclassificatie en -retrieval; document-, beeld- en video-Q&A; en ruimtelijke taken zoals detectie, diepteschatting en tracking. Om verder onderzoek te bevorderen, maken we onze modellen, code en een nieuwe dataset van synthetisch en door mensen geannoteerde video's beschikbaar.
English
We introduce Perception Encoder (PE), a state-of-the-art encoder for image
and video understanding trained via simple vision-language learning.
Traditionally, vision encoders have relied on a variety of pretraining
objectives, each tailored to specific downstream tasks such as classification,
captioning, or localization. Surprisingly, after scaling our carefully tuned
image pretraining recipe and refining with our robust video data engine, we
find that contrastive vision-language training alone can produce strong,
general embeddings for all of these downstream tasks. There is only one caveat:
these embeddings are hidden within the intermediate layers of the network. To
draw them out, we introduce two alignment methods, language alignment for
multimodal language modeling, and spatial alignment for dense prediction.
Together with the core contrastive checkpoint, our PE family of models achieves
state-of-the-art performance on a wide variety of tasks, including zero-shot
image and video classification and retrieval; document, image, and video Q&A;
and spatial tasks such as detection, depth estimation, and tracking. To foster
further research, we are releasing our models, code, and a novel dataset of
synthetically and human-annotated videos.Summary
AI-Generated Summary