Distillazione Localizzata della Conoscenza Simbolica per Modelli di Senso Comune Visivo
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
December 8, 2023
Autori: Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
cs.AI
Abstract
I modelli visione-linguaggio (VL) che seguono istruzioni offrono un'interfaccia flessibile che supporta un'ampia gamma di attività multimodali in modalità zero-shot. Tuttavia, le interfacce che operano su immagini complete non consentono direttamente all'utente di "indicare" e accedere a regioni specifiche all'interno delle immagini. Questa capacità è importante non solo per supportare benchmark VL basati su riferimenti, ma anche per applicazioni pratiche che richiedono un ragionamento preciso all'interno dell'immagine. Costruiamo modelli di Common Sense Visuale Localizzato, che permettono agli utenti di specificare (multiple) regioni come input. Addestriamo il nostro modello campionando conoscenza di common sense localizzata da un grande modello linguistico (LLM): nello specifico, sollecitiamo un LLM a raccogliere conoscenza di common sense data una descrizione letterale globale dell'immagine e una descrizione letterale locale della regione generata automaticamente da un insieme di modelli VL. Con un modello critico addestrato separatamente che seleziona esempi di alta qualità, scopriamo che l'addestramento sul corpus di common sense localizzato può distillare con successo i modelli VL esistenti per supportare un'interfaccia che accetta riferimenti come input. Risultati empirici e valutazioni umane in uno setup zero-shot dimostrano che il nostro metodo di distillazione produce modelli VL di ragionamento più precisi rispetto a una baseline che passa un'espressione di riferimento generata a un LLM.
English
Instruction following vision-language (VL) models offer a flexible interface
that supports a broad range of multimodal tasks in a zero-shot fashion.
However, interfaces that operate on full images do not directly enable the user
to "point to" and access specific regions within images. This capability is
important not only to support reference-grounded VL benchmarks, but also, for
practical applications that require precise within-image reasoning. We build
Localized Visual Commonsense models, which allow users to specify (multiple)
regions as input. We train our model by sampling localized commonsense
knowledge from a large language model (LLM): specifically, we prompt an LLM to
collect commonsense knowledge given a global literal image description and a
local literal region description automatically generated by a set of VL models.
With a separately trained critic model that selects high-quality examples, we
find that training on the localized commonsense corpus can successfully distill
existing VL models to support a reference-as-input interface. Empirical results
and human evaluations in a zero-shot setup demonstrate that our distillation
method results in more precise VL models of reasoning compared to a baseline of
passing a generated referring expression to an LLM.