Distillation Symbolique Localisée pour les Modèles de Sens Commun Visuel
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
December 8, 2023
Auteurs: Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
cs.AI
Résumé
Les modèles vision-langage (VL) suivant des instructions offrent une interface flexible qui prend en charge un large éventail de tâches multimodales de manière zero-shot. Cependant, les interfaces opérant sur des images complètes ne permettent pas directement à l'utilisateur de "pointer" et d'accéder à des régions spécifiques au sein des images. Cette capacité est importante non seulement pour soutenir les benchmarks VL basés sur des références, mais aussi pour des applications pratiques nécessitant un raisonnement précis au sein des images. Nous construisons des modèles de bon sens visuel localisé, qui permettent aux utilisateurs de spécifier (plusieurs) régions en entrée. Nous entraînons notre modèle en échantillonnant des connaissances de bon sens localisées à partir d'un grand modèle de langage (LLM) : plus précisément, nous incitons un LLM à collecter des connaissances de bon sens à partir d'une description littérale globale de l'image et d'une description littérale locale d'une région, générées automatiquement par un ensemble de modèles VL. Avec un modèle critique entraîné séparément pour sélectionner des exemples de haute qualité, nous constatons que l'entraînement sur le corpus de bon sens localisé peut distiller avec succès les modèles VL existants pour prendre en charge une interface utilisant des références en entrée. Les résultats empiriques et les évaluations humaines dans un cadre zero-shot montrent que notre méthode de distillation produit des modèles VL de raisonnement plus précis par rapport à une base de référence consistant à passer une expression référentielle générée à un LLM.
English
Instruction following vision-language (VL) models offer a flexible interface
that supports a broad range of multimodal tasks in a zero-shot fashion.
However, interfaces that operate on full images do not directly enable the user
to "point to" and access specific regions within images. This capability is
important not only to support reference-grounded VL benchmarks, but also, for
practical applications that require precise within-image reasoning. We build
Localized Visual Commonsense models, which allow users to specify (multiple)
regions as input. We train our model by sampling localized commonsense
knowledge from a large language model (LLM): specifically, we prompt an LLM to
collect commonsense knowledge given a global literal image description and a
local literal region description automatically generated by a set of VL models.
With a separately trained critic model that selects high-quality examples, we
find that training on the localized commonsense corpus can successfully distill
existing VL models to support a reference-as-input interface. Empirical results
and human evaluations in a zero-shot setup demonstrate that our distillation
method results in more precise VL models of reasoning compared to a baseline of
passing a generated referring expression to an LLM.