Meta-personalisatie van visueel-taalkundige modellen om benoemde instanties in video's te identificeren
Meta-Personalizing Vision-Language Models to Find Named Instances in Video
June 16, 2023
Auteurs: Chun-Hsiao Yeh, Bryan Russell, Josef Sivic, Fabian Caba Heilbron, Simon Jenni
cs.AI
Samenvatting
Grootschalige visueel-taalkundige modellen (VLM) hebben indrukwekkende resultaten laten zien voor toepassingen van zoeken op basis van taal. Hoewel deze modellen zoekopdrachten op categorieniveau mogelijk maken, hebben ze momenteel moeite met gepersonaliseerde zoekopdrachten naar momenten in een video waar een specifiek object voorkomt, zoals "Mijn hond Biscuit". We presenteren de volgende drie bijdragen om dit probleem aan te pakken. Ten eerste beschrijven we een methode om een vooraf getraind VLM te meta-personaliseren, d.w.z. te leren hoe een VLM tijdens het testen gepersonaliseerd kan worden om in video's te zoeken. Onze methode breidt de tokenwoordenschat van het VLM uit door nieuwe woord-embeddings te leren die specifiek zijn voor elk object. Om alleen object-specifieke kenmerken vast te leggen, representeren we elke object-embedding als een combinatie van gedeelde en geleerde globale categoriefuncties. Ten tweede stellen we voor om een dergelijke personalisatie te leren zonder expliciete menselijke supervisie. Onze aanpak identificeert automatisch momenten van benoemde visuele objecten in video's met behulp van transcripties en visueel-taalkundige overeenkomsten in de embeddingruimte van het VLM. Tot slot introduceren we This-Is-My, een benchmark voor het ophalen van gepersonaliseerde video-objecten. We evalueren onze aanpak op This-Is-My en DeepFashion2 en laten zien dat we een relatieve verbetering van 15% behalen ten opzichte van de state-of-the-art op de laatste dataset.
English
Large-scale vision-language models (VLM) have shown impressive results for
language-guided search applications. While these models allow category-level
queries, they currently struggle with personalized searches for moments in a
video where a specific object instance such as ``My dog Biscuit'' appears. We
present the following three contributions to address this problem. First, we
describe a method to meta-personalize a pre-trained VLM, i.e., learning how to
learn to personalize a VLM at test time to search in video. Our method extends
the VLM's token vocabulary by learning novel word embeddings specific to each
instance. To capture only instance-specific features, we represent each
instance embedding as a combination of shared and learned global category
features. Second, we propose to learn such personalization without explicit
human supervision. Our approach automatically identifies moments of named
visual instances in video using transcripts and vision-language similarity in
the VLM's embedding space. Finally, we introduce This-Is-My, a personal video
instance retrieval benchmark. We evaluate our approach on This-Is-My and
DeepFashion2 and show that we obtain a 15% relative improvement over the state
of the art on the latter dataset.