MiniGPT-v2: крупная языковая модель как унифицированный интерфейс для многозадачного обучения в области взаимодействия зрения и языка
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning
October 14, 2023
Авторы: Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny
cs.AI
Аннотация
Крупные языковые модели продемонстрировали свои впечатляющие возможности в качестве универсального интерфейса для различных задач, связанных с обработкой языка. Вдохновленные этим, мы ставим цель создать единый интерфейс для выполнения множества задач на стыке зрения и языка, включая описание изображений, визуальный вопросно-ответный анализ и визуальное закрепление, среди прочего. Основная задача заключается в использовании одной модели для эффективного выполнения разнообразных задач на стыке зрения и языка с помощью простых мультимодальных инструкций. Для достижения этой цели мы представляем MiniGPT-v2 — модель, которую можно рассматривать как унифицированный интерфейс для более эффективного решения различных задач на стыке зрения и языка. Мы предлагаем использовать уникальные идентификаторы для различных задач при обучении модели. Эти идентификаторы позволяют нашей модели легко различать инструкции для каждой задачи, а также повышают эффективность обучения модели для каждой задачи. После трехэтапного обучения результаты экспериментов показывают, что MiniGPT-v2 демонстрирует высокую производительность на многих бенчмарках для визуального вопросно-ответного анализа и визуального закрепления по сравнению с другими универсальными моделями на стыке зрения и языка. Наша модель и код доступны по адресу https://minigpt-v2.github.io/.
English
Large language models have shown their remarkable capabilities as a general
interface for various language-related applications. Motivated by this, we
target to build a unified interface for completing many vision-language tasks
including image description, visual question answering, and visual grounding,
among others. The challenge is to use a single model for performing diverse
vision-language tasks effectively with simple multi-modal instructions. Towards
this objective, we introduce MiniGPT-v2, a model that can be treated as a
unified interface for better handling various vision-language tasks. We propose
using unique identifiers for different tasks when training the model. These
identifiers enable our model to better distinguish each task instruction
effortlessly and also improve the model learning efficiency for each task.
After the three-stage training, the experimental results show that MiniGPT-v2
achieves strong performance on many visual question-answering and visual
grounding benchmarks compared to other vision-language generalist models. Our
model and codes are available at https://minigpt-v2.github.io/