Meta-Personalización de Modelos de Visión y Lenguaje para Encontrar Instancias Nombradas en Video

Resumen

Los modelos de visión y lenguaje a gran escala (VLM, por sus siglas en inglés) han demostrado resultados impresionantes en aplicaciones de búsqueda guiada por lenguaje. Si bien estos modelos permiten consultas a nivel de categoría, actualmente tienen dificultades con búsquedas personalizadas de momentos en un video donde aparece una instancia específica de un objeto, como "Mi perro Biscuit". Presentamos las siguientes tres contribuciones para abordar este problema. Primero, describimos un método para meta-personalizar un VLM preentrenado, es decir, aprender cómo personalizar un VLM en tiempo de prueba para buscar en videos. Nuestro método extiende el vocabulario de tokens del VLM al aprender nuevas incrustaciones de palabras específicas para cada instancia. Para capturar solo características específicas de la instancia, representamos cada incrustación de instancia como una combinación de características globales compartidas y aprendidas de la categoría. Segundo, proponemos aprender dicha personalización sin supervisión humana explícita. Nuestro enfoque identifica automáticamente momentos de instancias visuales nombradas en videos utilizando transcripciones y similitud visión-lenguaje en el espacio de incrustaciones del VLM. Finalmente, presentamos This-Is-My, un punto de referencia para la recuperación de instancias de video personalizadas. Evaluamos nuestro enfoque en This-Is-My y DeepFashion2, y mostramos que obtenemos una mejora relativa del 15 % sobre el estado del arte en este último conjunto de datos.

English

Large-scale vision-language models (VLM) have shown impressive results for language-guided search applications. While these models allow category-level queries, they currently struggle with personalized searches for moments in a video where a specific object instance such as ``My dog Biscuit'' appears. We present the following three contributions to address this problem. First, we describe a method to meta-personalize a pre-trained VLM, i.e., learning how to learn to personalize a VLM at test time to search in video. Our method extends the VLM's token vocabulary by learning novel word embeddings specific to each instance. To capture only instance-specific features, we represent each instance embedding as a combination of shared and learned global category features. Second, we propose to learn such personalization without explicit human supervision. Our approach automatically identifies moments of named visual instances in video using transcripts and vision-language similarity in the VLM's embedding space. Finally, we introduce This-Is-My, a personal video instance retrieval benchmark. We evaluate our approach on This-Is-My and DeepFashion2 and show that we obtain a 15% relative improvement over the state of the art on the latter dataset.

Meta-Personalización de Modelos de Visión y Lenguaje para Encontrar Instancias Nombradas en Video

Meta-Personalizing Vision-Language Models to Find Named Instances in Video

Resumen

Support