Distilação Localizada de Conhecimento Simbólico para Modelos de Senso Comum Visual
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
December 8, 2023
Autores: Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
cs.AI
Resumo
Modelos de linguagem visual (VL) que seguem instruções oferecem uma interface flexível que suporta uma ampla gama de tarefas multimodais de forma zero-shot. No entanto, interfaces que operam em imagens completas não permitem diretamente que o usuário "aponte" e acesse regiões específicas dentro das imagens. Essa capacidade é importante não apenas para suportar benchmarks de VL baseados em referência, mas também para aplicações práticas que exigem raciocínio preciso dentro da imagem. Construímos modelos de Senso Comum Visual Localizado, que permitem aos usuários especificar (múltiplas) regiões como entrada. Treinamos nosso modelo amostrando conhecimento de senso comum localizado de um grande modelo de linguagem (LLM): especificamente, solicitamos que um LLM colete conhecimento de senso comum com base em uma descrição literal global da imagem e em uma descrição literal local da região, gerada automaticamente por um conjunto de modelos VL. Com um modelo crítico treinado separadamente que seleciona exemplos de alta qualidade, descobrimos que o treinamento no corpus de senso comum localizado pode destilar com sucesso modelos VL existentes para suportar uma interface de referência como entrada. Resultados empíricos e avaliações humanas em uma configuração zero-shot demonstram que nosso método de destilação resulta em modelos VL de raciocínio mais precisos em comparação com uma linha de base que passa uma expressão de referência gerada para um LLM.
English
Instruction following vision-language (VL) models offer a flexible interface
that supports a broad range of multimodal tasks in a zero-shot fashion.
However, interfaces that operate on full images do not directly enable the user
to "point to" and access specific regions within images. This capability is
important not only to support reference-grounded VL benchmarks, but also, for
practical applications that require precise within-image reasoning. We build
Localized Visual Commonsense models, which allow users to specify (multiple)
regions as input. We train our model by sampling localized commonsense
knowledge from a large language model (LLM): specifically, we prompt an LLM to
collect commonsense knowledge given a global literal image description and a
local literal region description automatically generated by a set of VL models.
With a separately trained critic model that selects high-quality examples, we
find that training on the localized commonsense corpus can successfully distill
existing VL models to support a reference-as-input interface. Empirical results
and human evaluations in a zero-shot setup demonstrate that our distillation
method results in more precise VL models of reasoning compared to a baseline of
passing a generated referring expression to an LLM.