Meta-personalisatie van visueel-taalkundige modellen om benoemde instanties in video's te identificeren

Samenvatting

Grootschalige visueel-taalkundige modellen (VLM) hebben indrukwekkende resultaten laten zien voor toepassingen van zoeken op basis van taal. Hoewel deze modellen zoekopdrachten op categorieniveau mogelijk maken, hebben ze momenteel moeite met gepersonaliseerde zoekopdrachten naar momenten in een video waar een specifiek object voorkomt, zoals "Mijn hond Biscuit". We presenteren de volgende drie bijdragen om dit probleem aan te pakken. Ten eerste beschrijven we een methode om een vooraf getraind VLM te meta-personaliseren, d.w.z. te leren hoe een VLM tijdens het testen gepersonaliseerd kan worden om in video's te zoeken. Onze methode breidt de tokenwoordenschat van het VLM uit door nieuwe woord-embeddings te leren die specifiek zijn voor elk object. Om alleen object-specifieke kenmerken vast te leggen, representeren we elke object-embedding als een combinatie van gedeelde en geleerde globale categoriefuncties. Ten tweede stellen we voor om een dergelijke personalisatie te leren zonder expliciete menselijke supervisie. Onze aanpak identificeert automatisch momenten van benoemde visuele objecten in video's met behulp van transcripties en visueel-taalkundige overeenkomsten in de embeddingruimte van het VLM. Tot slot introduceren we This-Is-My, een benchmark voor het ophalen van gepersonaliseerde video-objecten. We evalueren onze aanpak op This-Is-My en DeepFashion2 en laten zien dat we een relatieve verbetering van 15% behalen ten opzichte van de state-of-the-art op de laatste dataset.

English

Large-scale vision-language models (VLM) have shown impressive results for language-guided search applications. While these models allow category-level queries, they currently struggle with personalized searches for moments in a video where a specific object instance such as ``My dog Biscuit'' appears. We present the following three contributions to address this problem. First, we describe a method to meta-personalize a pre-trained VLM, i.e., learning how to learn to personalize a VLM at test time to search in video. Our method extends the VLM's token vocabulary by learning novel word embeddings specific to each instance. To capture only instance-specific features, we represent each instance embedding as a combination of shared and learned global category features. Second, we propose to learn such personalization without explicit human supervision. Our approach automatically identifies moments of named visual instances in video using transcripts and vision-language similarity in the VLM's embedding space. Finally, we introduce This-Is-My, a personal video instance retrieval benchmark. We evaluate our approach on This-Is-My and DeepFashion2 and show that we obtain a 15% relative improvement over the state of the art on the latter dataset.

Meta-personalisatie van visueel-taalkundige modellen om benoemde instanties in video's te identificeren

Meta-Personalizing Vision-Language Models to Find Named Instances in Video

Samenvatting

Support