Inst-IT: Het verbeteren van multimodale instantiebegrip via expliciete visuele promptinstructieafstemming.
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
December 4, 2024
Auteurs: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Samenvatting
Grote multimodale modellen (LMM's) hebben significante doorbraken bereikt met de vooruitgang van instructieafstemming. Echter, terwijl bestaande modellen afbeeldingen en video's op een holistisch niveau kunnen begrijpen, worstelen ze nog steeds met het begrip op instantieniveau dat een meer genuanceerd begrip en afstemming vereist. Instantieniveau begrip is cruciaal, omdat het zich richt op de specifieke elementen waarin we het meest geïnteresseerd zijn. Interessant genoeg tonen bestaande werken aan dat de toonaangevende LMM's sterke instantiebegripvaardigheden vertonen wanneer ze worden voorzien van expliciete visuele aanwijzingen. Gemotiveerd door dit, introduceren we een geautomatiseerd annotatiepijplijn ondersteund door GPT-4o om instantieniveau informatie uit afbeeldingen en video's te extraheren via expliciete visuele aanwijzingen voor instantiebegeleiding. Voortbouwend op deze pijplijn hebben we Inst-IT voorgesteld, een oplossing om LMM's te verbeteren in instantiebegrip via expliciete visuele promptinstructieafstemming. Inst-IT bestaat uit een benchmark om multimodaal instantieniveau begrip te diagnosticeren, een grootschalige instructie-afstemmingsdataset, en een continu instructie-afstemmings trainingsparadigma om effectief de ruimtelijk-temporele instantiebegripvaardigheden van bestaande LMM's te verbeteren. Experimentele resultaten tonen aan dat, met de boost van Inst-IT, onze modellen niet alleen uitstekende prestaties behalen op de Inst-IT Bench, maar ook significante verbeteringen laten zien over verschillende generieke afbeeldings- en videobegrip benchmarks. Dit benadrukt dat onze dataset niet alleen instantieniveau begrip verbetert, maar ook de algehele mogelijkheden van generiek afbeeldings- en videobegrip versterkt.
English
Large Multimodal Models (LMMs) have made significant breakthroughs with the
advancement of instruction tuning. However, while existing models can
understand images and videos at a holistic level, they still struggle with
instance-level understanding that requires a more nuanced comprehension and
alignment. Instance-level understanding is crucial, as it focuses on the
specific elements that we are most interested in. Excitingly, existing works
find that the state-of-the-art LMMs exhibit strong instance understanding
capabilities when provided with explicit visual cues. Motivated by this, we
introduce an automated annotation pipeline assisted by GPT-4o to extract
instance-level information from images and videos through explicit visual
prompting for instance guidance. Building upon this pipeline, we proposed
Inst-IT, a solution to enhance LMMs in Instance understanding via explicit
visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose
multimodal instance-level understanding, a large-scale instruction-tuning
dataset, and a continuous instruction-tuning training paradigm to effectively
enhance spatial-temporal instance understanding capabilities of existing LMMs.
Experimental results show that, with the boost of Inst-IT, our models not only
achieve outstanding performance on Inst-IT Bench but also demonstrate
significant improvements across various generic image and video understanding
benchmarks. This highlights that our dataset not only boosts instance-level
understanding but also strengthens the overall capabilities of generic image
and video comprehension.Summary
AI-Generated Summary