Distilación Localizada de Conocimiento Simbólico para Modelos de Sentido Común Visual
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
December 8, 2023
Autores: Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
cs.AI
Resumen
Los modelos de visión y lenguaje (VL) que siguen instrucciones ofrecen una interfaz flexible que admite una amplia gama de tareas multimodales de manera zero-shot. Sin embargo, las interfaces que operan sobre imágenes completas no permiten directamente al usuario "señalar" y acceder a regiones específicas dentro de las imágenes. Esta capacidad es importante no solo para respaldar benchmarks de VL basados en referencias, sino también para aplicaciones prácticas que requieren un razonamiento preciso dentro de la imagen. Desarrollamos modelos de Sentido Común Visual Localizado, que permiten a los usuarios especificar (múltiples) regiones como entrada. Entrenamos nuestro modelo muestreando conocimiento de sentido común localizado a partir de un modelo de lenguaje grande (LLM): específicamente, solicitamos a un LLM que recopile conocimiento de sentido común dado una descripción literal global de la imagen y una descripción literal local de la región generada automáticamente por un conjunto de modelos VL. Con un modelo crítico entrenado por separado que selecciona ejemplos de alta calidad, encontramos que el entrenamiento en el corpus de sentido común localizado puede destilar con éxito modelos VL existentes para admitir una interfaz de referencia como entrada. Los resultados empíricos y las evaluaciones humanas en una configuración zero-shot demuestran que nuestro método de destilación produce modelos VL de razonamiento más precisos en comparación con una línea base que pasa una expresión de referencia generada a un LLM.
English
Instruction following vision-language (VL) models offer a flexible interface
that supports a broad range of multimodal tasks in a zero-shot fashion.
However, interfaces that operate on full images do not directly enable the user
to "point to" and access specific regions within images. This capability is
important not only to support reference-grounded VL benchmarks, but also, for
practical applications that require precise within-image reasoning. We build
Localized Visual Commonsense models, which allow users to specify (multiple)
regions as input. We train our model by sampling localized commonsense
knowledge from a large language model (LLM): specifically, we prompt an LLM to
collect commonsense knowledge given a global literal image description and a
local literal region description automatically generated by a set of VL models.
With a separately trained critic model that selects high-quality examples, we
find that training on the localized commonsense corpus can successfully distill
existing VL models to support a reference-as-input interface. Empirical results
and human evaluations in a zero-shot setup demonstrate that our distillation
method results in more precise VL models of reasoning compared to a baseline of
passing a generated referring expression to an LLM.