Perceptie-encoder: De beste visuele embeddings bevinden zich niet aan de uitvoer van het netwerk

Samenvatting

We introduceren de Perception Encoder (PE), een state-of-the-art encoder voor beeld- en videobegrip die getraind is via eenvoudige visie-taal-leren. Traditioneel hebben visie-encoders vertrouwd op een verscheidenheid aan vooraf getrainde doelstellingen, elk afgestemd op specifieke downstream taken zoals classificatie, bijschriften of lokalisatie. Verrassend genoeg ontdekken we, na het opschalen van ons zorgvuldig afgestemde beeldpretrainingsrecept en verfijning met onze robuuste videodata-engine, dat contrastief visie-taal-trainen alleen al sterke, algemene embeddings kan produceren voor al deze downstream taken. Er is slechts één voorbehoud: deze embeddings zijn verborgen in de tussenliggende lagen van het netwerk. Om deze naar voren te halen, introduceren we twee uitlijningsmethoden: taaluitlijning voor multimodale taalmodellering en ruimtelijke uitlijning voor dichte voorspelling. Samen met het kerncontrastieve checkpoint bereikt onze PE-familie van modellen state-of-the-art prestaties op een breed scala aan taken, waaronder zero-shot beeld- en videoclassificatie en -retrieval; document-, beeld- en video-Q&A; en ruimtelijke taken zoals detectie, diepteschatting en tracking. Om verder onderzoek te bevorderen, maken we onze modellen, code en een nieuwe dataset van synthetisch en door mensen geannoteerde video's beschikbaar.

English

We introduce Perception Encoder (PE), a state-of-the-art encoder for image and video understanding trained via simple vision-language learning. Traditionally, vision encoders have relied on a variety of pretraining objectives, each tailored to specific downstream tasks such as classification, captioning, or localization. Surprisingly, after scaling our carefully tuned image pretraining recipe and refining with our robust video data engine, we find that contrastive vision-language training alone can produce strong, general embeddings for all of these downstream tasks. There is only one caveat: these embeddings are hidden within the intermediate layers of the network. To draw them out, we introduce two alignment methods, language alignment for multimodal language modeling, and spatial alignment for dense prediction. Together with the core contrastive checkpoint, our PE family of models achieves state-of-the-art performance on a wide variety of tasks, including zero-shot image and video classification and retrieval; document, image, and video Q&A; and spatial tasks such as detection, depth estimation, and tracking. To foster further research, we are releasing our models, code, and a novel dataset of synthetically and human-annotated videos.

Perceptie-encoder: De beste visuele embeddings bevinden zich niet aan de uitvoer van het netwerk

Perception Encoder: The best visual embeddings are not at the output of the network

Samenvatting

Support