Inst-IT: Aumentando a Compreensão de Instâncias Multimodais através do Ajuste Explícito de Instruções Visuais de Estímulo.
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
December 4, 2024
Autores: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumo
Os Modelos Multimodais de Grande Escala (LMMs) têm alcançado avanços significativos com o aprimoramento da sintonização de instruções. No entanto, embora os modelos existentes consigam compreender imagens e vídeos em um nível holístico, ainda enfrentam dificuldades com a compreensão em nível de instância, que requer uma compreensão e alinhamento mais refinados. A compreensão em nível de instância é crucial, pois se concentra nos elementos específicos que mais nos interessam. De forma empolgante, trabalhos existentes descobrem que os LMMs de última geração apresentam fortes capacidades de compreensão em nível de instância quando fornecidos com pistas visuais explícitas. Motivados por isso, introduzimos um pipeline de anotação automatizado assistido pelo GPT-4o para extrair informações em nível de instância de imagens e vídeos por meio de orientações visuais explícitas para orientação em instância. A partir deste pipeline, propusemos o Inst-IT, uma solução para aprimorar os LMMs na compreensão em instância por meio da Sintonização de Instruções com Orientação Visual Explícita. O Inst-IT consiste em um benchmark para diagnosticar a compreensão em nível de instância multimodal, um conjunto de dados de sintonização de instruções em larga escala e um paradigma de treinamento contínuo de sintonização de instruções para aprimorar efetivamente as capacidades de compreensão em instância espaço-temporal dos LMMs existentes. Os resultados experimentais mostram que, com o impulso do Inst-IT, nossos modelos não apenas alcançam um desempenho excepcional no Benchmark do Inst-IT, mas também demonstram melhorias significativas em diversos benchmarks genéricos de compreensão de imagem e vídeo. Isso destaca que nosso conjunto de dados não apenas impulsiona a compreensão em nível de instância, mas também fortalece as capacidades gerais de compreensão de imagem e vídeo genéricas.
English
Large Multimodal Models (LMMs) have made significant breakthroughs with the
advancement of instruction tuning. However, while existing models can
understand images and videos at a holistic level, they still struggle with
instance-level understanding that requires a more nuanced comprehension and
alignment. Instance-level understanding is crucial, as it focuses on the
specific elements that we are most interested in. Excitingly, existing works
find that the state-of-the-art LMMs exhibit strong instance understanding
capabilities when provided with explicit visual cues. Motivated by this, we
introduce an automated annotation pipeline assisted by GPT-4o to extract
instance-level information from images and videos through explicit visual
prompting for instance guidance. Building upon this pipeline, we proposed
Inst-IT, a solution to enhance LMMs in Instance understanding via explicit
visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose
multimodal instance-level understanding, a large-scale instruction-tuning
dataset, and a continuous instruction-tuning training paradigm to effectively
enhance spatial-temporal instance understanding capabilities of existing LMMs.
Experimental results show that, with the boost of Inst-IT, our models not only
achieve outstanding performance on Inst-IT Bench but also demonstrate
significant improvements across various generic image and video understanding
benchmarks. This highlights that our dataset not only boosts instance-level
understanding but also strengthens the overall capabilities of generic image
and video comprehension.Summary
AI-Generated Summary