Meta-Personalización de Modelos de Visión y Lenguaje para Encontrar Instancias Nombradas en Video
Meta-Personalizing Vision-Language Models to Find Named Instances in Video
June 16, 2023
Autores: Chun-Hsiao Yeh, Bryan Russell, Josef Sivic, Fabian Caba Heilbron, Simon Jenni
cs.AI
Resumen
Los modelos de visión y lenguaje a gran escala (VLM, por sus siglas en inglés) han demostrado resultados impresionantes en aplicaciones de búsqueda guiada por lenguaje. Si bien estos modelos permiten consultas a nivel de categoría, actualmente tienen dificultades con búsquedas personalizadas de momentos en un video donde aparece una instancia específica de un objeto, como "Mi perro Biscuit". Presentamos las siguientes tres contribuciones para abordar este problema. Primero, describimos un método para meta-personalizar un VLM preentrenado, es decir, aprender cómo personalizar un VLM en tiempo de prueba para buscar en videos. Nuestro método extiende el vocabulario de tokens del VLM al aprender nuevas incrustaciones de palabras específicas para cada instancia. Para capturar solo características específicas de la instancia, representamos cada incrustación de instancia como una combinación de características globales compartidas y aprendidas de la categoría. Segundo, proponemos aprender dicha personalización sin supervisión humana explícita. Nuestro enfoque identifica automáticamente momentos de instancias visuales nombradas en videos utilizando transcripciones y similitud visión-lenguaje en el espacio de incrustaciones del VLM. Finalmente, presentamos This-Is-My, un punto de referencia para la recuperación de instancias de video personalizadas. Evaluamos nuestro enfoque en This-Is-My y DeepFashion2, y mostramos que obtenemos una mejora relativa del 15 % sobre el estado del arte en este último conjunto de datos.
English
Large-scale vision-language models (VLM) have shown impressive results for
language-guided search applications. While these models allow category-level
queries, they currently struggle with personalized searches for moments in a
video where a specific object instance such as ``My dog Biscuit'' appears. We
present the following three contributions to address this problem. First, we
describe a method to meta-personalize a pre-trained VLM, i.e., learning how to
learn to personalize a VLM at test time to search in video. Our method extends
the VLM's token vocabulary by learning novel word embeddings specific to each
instance. To capture only instance-specific features, we represent each
instance embedding as a combination of shared and learned global category
features. Second, we propose to learn such personalization without explicit
human supervision. Our approach automatically identifies moments of named
visual instances in video using transcripts and vision-language similarity in
the VLM's embedding space. Finally, we introduce This-Is-My, a personal video
instance retrieval benchmark. We evaluate our approach on This-Is-My and
DeepFashion2 and show that we obtain a 15% relative improvement over the state
of the art on the latter dataset.