Gelokaliseerde Symbolische Kennisdistillatie voor Visuele Common Sense-modellen
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
December 8, 2023
Auteurs: Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
cs.AI
Samenvatting
Instructievolgende visueel-taalkundige (VL) modellen bieden een flexibele interface die een breed scala aan multimodale taken ondersteunt op een zero-shot manier. Interfaces die werken op volledige afbeeldingen maken het gebruikers echter niet direct mogelijk om specifieke regio's binnen afbeeldingen "aan te wijzen" en te benaderen. Deze mogelijkheid is niet alleen belangrijk om referentiegebaseerde VL-benchmarks te ondersteunen, maar ook voor praktische toepassingen die precies redeneren binnen afbeeldingen vereisen. We ontwikkelen Gelokaliseerde Visuele Common Sense-modellen, die gebruikers in staat stellen (meerdere) regio's als invoer te specificeren. We trainen ons model door gelokaliseerde common sense-kennis te bemonsteren uit een groot taalmodel (LLM): specifiek vragen we een LLM om common sense-kennis te verzamelen op basis van een globale letterlijke afbeeldingsbeschrijving en een lokale letterlijke regio-beschrijving die automatisch wordt gegenereerd door een set VL-modellen. Met een apart getraind criticusmodel dat hoogwaardige voorbeelden selecteert, ontdekken we dat training op het gelokaliseerde common sense-corpus bestaande VL-modellen succesvol kan destilleren om een referentie-als-invoer-interface te ondersteunen. Empirische resultaten en menselijke evaluaties in een zero-shot opzet tonen aan dat onze destillatiemethode resulteert in nauwkeurigere VL-modellen voor redeneren in vergelijking met een baseline waarbij een gegenereerde verwijzende expressie wordt doorgegeven aan een LLM.
English
Instruction following vision-language (VL) models offer a flexible interface
that supports a broad range of multimodal tasks in a zero-shot fashion.
However, interfaces that operate on full images do not directly enable the user
to "point to" and access specific regions within images. This capability is
important not only to support reference-grounded VL benchmarks, but also, for
practical applications that require precise within-image reasoning. We build
Localized Visual Commonsense models, which allow users to specify (multiple)
regions as input. We train our model by sampling localized commonsense
knowledge from a large language model (LLM): specifically, we prompt an LLM to
collect commonsense knowledge given a global literal image description and a
local literal region description automatically generated by a set of VL models.
With a separately trained critic model that selects high-quality examples, we
find that training on the localized commonsense corpus can successfully distill
existing VL models to support a reference-as-input interface. Empirical results
and human evaluations in a zero-shot setup demonstrate that our distillation
method results in more precise VL models of reasoning compared to a baseline of
passing a generated referring expression to an LLM.