Локализованное символьное дистилляция знаний для моделей визуального здравого смысла
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
December 8, 2023
Авторы: Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
cs.AI
Аннотация
Модели обработки визуально-языковых данных (VL), способные следовать инструкциям, предоставляют гибкий интерфейс, поддерживающий широкий спектр мультимодальных задач в режиме zero-shot. Однако интерфейсы, работающие с полными изображениями, не позволяют пользователю напрямую "указывать" на конкретные области изображения и взаимодействовать с ними. Эта возможность важна не только для поддержки эталонных тестов VL, основанных на ссылках, но и для практических приложений, требующих точного анализа внутри изображения. Мы разрабатываем модели локализованного визуального здравого смысла (Localized Visual Commonsense), которые позволяют пользователю задавать (несколько) областей в качестве входных данных. Мы обучаем нашу модель, извлекая локализованные знания здравого смысла из крупной языковой модели (LLM): в частности, мы используем LLM для сбора знаний здравого смысла на основе глобального буквального описания изображения и локального буквального описания области, автоматически генерируемого набором VL-моделей. С помощью отдельно обученной модели-критика, которая отбирает высококачественные примеры, мы обнаруживаем, что обучение на корпусе локализованного здравого смысла позволяет успешно дистиллировать существующие VL-модели для поддержки интерфейса, использующего ссылки в качестве входных данных. Эмпирические результаты и оценки людей в режиме zero-shot показывают, что наш метод дистилляции приводит к созданию более точных VL-моделей для анализа по сравнению с базовым подходом, при котором сгенерированное выражение ссылки передается в LLM.
English
Instruction following vision-language (VL) models offer a flexible interface
that supports a broad range of multimodal tasks in a zero-shot fashion.
However, interfaces that operate on full images do not directly enable the user
to "point to" and access specific regions within images. This capability is
important not only to support reference-grounded VL benchmarks, but also, for
practical applications that require precise within-image reasoning. We build
Localized Visual Commonsense models, which allow users to specify (multiple)
regions as input. We train our model by sampling localized commonsense
knowledge from a large language model (LLM): specifically, we prompt an LLM to
collect commonsense knowledge given a global literal image description and a
local literal region description automatically generated by a set of VL models.
With a separately trained critic model that selects high-quality examples, we
find that training on the localized commonsense corpus can successfully distill
existing VL models to support a reference-as-input interface. Empirical results
and human evaluations in a zero-shot setup demonstrate that our distillation
method results in more precise VL models of reasoning compared to a baseline of
passing a generated referring expression to an LLM.