ChatPaper.aiChatPaper

Inst-IT: Aumentando a Compreensão de Instâncias Multimodais através do Ajuste Explícito de Instruções Visuais de Estímulo.

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

December 4, 2024
Autores: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Resumo

Os Modelos Multimodais de Grande Escala (LMMs) têm alcançado avanços significativos com o aprimoramento da sintonização de instruções. No entanto, embora os modelos existentes consigam compreender imagens e vídeos em um nível holístico, ainda enfrentam dificuldades com a compreensão em nível de instância, que requer uma compreensão e alinhamento mais refinados. A compreensão em nível de instância é crucial, pois se concentra nos elementos específicos que mais nos interessam. De forma empolgante, trabalhos existentes descobrem que os LMMs de última geração apresentam fortes capacidades de compreensão em nível de instância quando fornecidos com pistas visuais explícitas. Motivados por isso, introduzimos um pipeline de anotação automatizado assistido pelo GPT-4o para extrair informações em nível de instância de imagens e vídeos por meio de orientações visuais explícitas para orientação em instância. A partir deste pipeline, propusemos o Inst-IT, uma solução para aprimorar os LMMs na compreensão em instância por meio da Sintonização de Instruções com Orientação Visual Explícita. O Inst-IT consiste em um benchmark para diagnosticar a compreensão em nível de instância multimodal, um conjunto de dados de sintonização de instruções em larga escala e um paradigma de treinamento contínuo de sintonização de instruções para aprimorar efetivamente as capacidades de compreensão em instância espaço-temporal dos LMMs existentes. Os resultados experimentais mostram que, com o impulso do Inst-IT, nossos modelos não apenas alcançam um desempenho excepcional no Benchmark do Inst-IT, mas também demonstram melhorias significativas em diversos benchmarks genéricos de compreensão de imagem e vídeo. Isso destaca que nosso conjunto de dados não apenas impulsiona a compreensão em nível de instância, mas também fortalece as capacidades gerais de compreensão de imagem e vídeo genéricas.
English
Large Multimodal Models (LMMs) have made significant breakthroughs with the advancement of instruction tuning. However, while existing models can understand images and videos at a holistic level, they still struggle with instance-level understanding that requires a more nuanced comprehension and alignment. Instance-level understanding is crucial, as it focuses on the specific elements that we are most interested in. Excitingly, existing works find that the state-of-the-art LMMs exhibit strong instance understanding capabilities when provided with explicit visual cues. Motivated by this, we introduce an automated annotation pipeline assisted by GPT-4o to extract instance-level information from images and videos through explicit visual prompting for instance guidance. Building upon this pipeline, we proposed Inst-IT, a solution to enhance LMMs in Instance understanding via explicit visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose multimodal instance-level understanding, a large-scale instruction-tuning dataset, and a continuous instruction-tuning training paradigm to effectively enhance spatial-temporal instance understanding capabilities of existing LMMs. Experimental results show that, with the boost of Inst-IT, our models not only achieve outstanding performance on Inst-IT Bench but also demonstrate significant improvements across various generic image and video understanding benchmarks. This highlights that our dataset not only boosts instance-level understanding but also strengthens the overall capabilities of generic image and video comprehension.

Summary

AI-Generated Summary

PDF112December 5, 2024