Inst-IT: Улучшение мультимодального понимания экземпляров с помощью явной настройки инструкций визуального подсказывания.
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
December 4, 2024
Авторы: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Аннотация
Большие мультимодальные модели (LMM) добились значительных прорывов благодаря развитию настройки инструкций. Однако существующие модели, хотя и способны понимать изображения и видео на глобальном уровне, все еще испытывают трудности с пониманием на уровне экземпляра, требующим более тонкого понимания и выравнивания. Понимание на уровне экземпляра крайне важно, поскольку фокусируется на конкретных элементах, которые нас больше всего интересуют. К нашему восторгу, существующие работы показывают, что современные LMM демонстрируют сильные возможности понимания экземпляров, когда им предоставляют явные визуальные подсказки. Под влиянием этого мы представляем автоматизированный процесс аннотации, поддерживаемый GPT-4o, для извлечения информации на уровне экземпляра из изображений и видео с помощью явных визуальных подсказок для руководства на уровне экземпляра. На основе этого процесса мы предложили Inst-IT, решение для улучшения LMM в понимании экземпляров с помощью настройки инструкций по явным визуальным подсказкам. Inst-IT включает в себя бенчмарк для диагностики мультимодального понимания на уровне экземпляра, крупномасштабный набор данных для настройки инструкций и непрерывную парадигму обучения настройке инструкций для эффективного улучшения пространственно-временных возможностей понимания экземпляров существующих LMM. Экспериментальные результаты показывают, что благодаря усилению Inst-IT наши модели не только достигают выдающихся результатов на бенчмарке Inst-IT, но также демонстрируют значительное улучшение на различных общих бенчмарках понимания изображений и видео. Это подчеркивает, что наш набор данных не только улучшает понимание на уровне экземпляра, но и укрепляет общие возможности общего понимания изображений и видео.
English
Large Multimodal Models (LMMs) have made significant breakthroughs with the
advancement of instruction tuning. However, while existing models can
understand images and videos at a holistic level, they still struggle with
instance-level understanding that requires a more nuanced comprehension and
alignment. Instance-level understanding is crucial, as it focuses on the
specific elements that we are most interested in. Excitingly, existing works
find that the state-of-the-art LMMs exhibit strong instance understanding
capabilities when provided with explicit visual cues. Motivated by this, we
introduce an automated annotation pipeline assisted by GPT-4o to extract
instance-level information from images and videos through explicit visual
prompting for instance guidance. Building upon this pipeline, we proposed
Inst-IT, a solution to enhance LMMs in Instance understanding via explicit
visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose
multimodal instance-level understanding, a large-scale instruction-tuning
dataset, and a continuous instruction-tuning training paradigm to effectively
enhance spatial-temporal instance understanding capabilities of existing LMMs.
Experimental results show that, with the boost of Inst-IT, our models not only
achieve outstanding performance on Inst-IT Bench but also demonstrate
significant improvements across various generic image and video understanding
benchmarks. This highlights that our dataset not only boosts instance-level
understanding but also strengthens the overall capabilities of generic image
and video comprehension.Summary
AI-Generated Summary