Lokalisierte symbolische Wissensdistillation für visuelle Commonsense-Modelle
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
December 8, 2023
Autoren: Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
cs.AI
Zusammenfassung
Instruktionsfolgende Vision-Sprache-Modelle (VL-Modelle) bieten eine flexible Schnittstelle, die eine breite Palette multimodaler Aufgaben in einem Zero-Shot-Szenario unterstützt. Schnittstellen, die auf vollständigen Bildern operieren, ermöglichen es dem Benutzer jedoch nicht direkt, auf bestimmte Bildregionen zu „zeigen“ und zuzugreifen. Diese Fähigkeit ist nicht nur wichtig, um referenzbasierte VL-Benchmarks zu unterstützen, sondern auch für praktische Anwendungen, die eine präzise Bild-internes Denken erfordern. Wir entwickeln lokalisierte visuelle Commonsense-Modelle, die es Benutzern ermöglichen, (mehrere) Regionen als Eingabe anzugeben. Wir trainieren unser Modell, indem wir lokalisierte Commonsense-Informationen aus einem großen Sprachmodell (LLM) sammeln: Konkret fordern wir ein LLM auf, Commonsense-Wissen basierend auf einer globalen wörtlichen Bildbeschreibung und einer lokalen wörtlichen Regionsbeschreibung zu sammeln, die automatisch von einer Reihe von VL-Modellen generiert wird. Mit einem separat trainierten Kritiker-Modell, das hochwertige Beispiele auswählt, stellen wir fest, dass das Training auf dem lokalisierten Commonsense-Korpus bestehende VL-Modelle erfolgreich destillieren kann, um eine Referenz-als-Eingabe-Schnittstelle zu unterstützen. Empirische Ergebnisse und menschliche Bewertungen in einem Zero-Shot-Setup zeigen, dass unsere Destillationsmethode im Vergleich zu einem Baseline-Ansatz, bei dem ein generierter Referenzausdruck an ein LLM übergeben wird, präzisere VL-Modelle des Denkens erzeugt.
English
Instruction following vision-language (VL) models offer a flexible interface
that supports a broad range of multimodal tasks in a zero-shot fashion.
However, interfaces that operate on full images do not directly enable the user
to "point to" and access specific regions within images. This capability is
important not only to support reference-grounded VL benchmarks, but also, for
practical applications that require precise within-image reasoning. We build
Localized Visual Commonsense models, which allow users to specify (multiple)
regions as input. We train our model by sampling localized commonsense
knowledge from a large language model (LLM): specifically, we prompt an LLM to
collect commonsense knowledge given a global literal image description and a
local literal region description automatically generated by a set of VL models.
With a separately trained critic model that selects high-quality examples, we
find that training on the localized commonsense corpus can successfully distill
existing VL models to support a reference-as-input interface. Empirical results
and human evaluations in a zero-shot setup demonstrate that our distillation
method results in more precise VL models of reasoning compared to a baseline of
passing a generated referring expression to an LLM.