Inst-IT: Steigerung des multimodalen Instanzverständnisses durch explizites visuelles Anweisungstuning
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
December 4, 2024
Autoren: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) haben mit dem Fortschritt des Instruktions-Tunings bedeutende Durchbrüche erzielt. Allerdings haben bestehende Modelle Schwierigkeiten mit dem Verständnis von Bildern und Videos auf einer holistischen Ebene, da sie noch immer mit einem instanzbasierten Verständnis kämpfen, das eine nuanciertere Erfassung und Ausrichtung erfordert. Das instanzbasierte Verständnis ist entscheidend, da es sich auf die spezifischen Elemente konzentriert, an denen wir am meisten interessiert sind. Interessanterweise zeigen bestehende Arbeiten, dass die hochmodernen LMMs starke Fähigkeiten im instanzbasierten Verständnis aufweisen, wenn sie mit expliziten visuellen Hinweisen versehen werden. Angeregt durch diese Erkenntnisse führen wir eine automatisierte Annotationspipeline ein, die von GPT-4o unterstützt wird, um instanzbasierte Informationen aus Bildern und Videos durch explizite visuelle Aufforderungen für eine gezielte Anleitung zu extrahieren. Aufbauend auf dieser Pipeline schlagen wir Inst-IT vor, eine Lösung zur Verbesserung von LMMs im instanzbasierten Verständnis durch explizite visuelle Aufforderungen für das Instruktions-Tuning. Inst-IT besteht aus einem Benchmark zur Diagnose des multimodalen instanzbasierten Verständnisses, einem umfangreichen Instruktions-Tuning-Datensatz und einem kontinuierlichen Instruktions-Tuning-Trainingsparadigma, um die räumlich-zeitlichen instanzbasierten Verständnisfähigkeiten bestehender LMMs effektiv zu verbessern. Experimentelle Ergebnisse zeigen, dass unsere Modelle mit der Unterstützung von Inst-IT nicht nur eine herausragende Leistung auf dem Inst-IT-Benchmark erzielen, sondern auch signifikante Verbesserungen in verschiedenen generischen Bild- und Videoverständnis-Benchmarks zeigen. Dies verdeutlicht, dass unser Datensatz nicht nur das instanzbasierte Verständnis verbessert, sondern auch die allgemeinen Fähigkeiten des generischen Bild- und Videoverständnisses stärkt.
English
Large Multimodal Models (LMMs) have made significant breakthroughs with the
advancement of instruction tuning. However, while existing models can
understand images and videos at a holistic level, they still struggle with
instance-level understanding that requires a more nuanced comprehension and
alignment. Instance-level understanding is crucial, as it focuses on the
specific elements that we are most interested in. Excitingly, existing works
find that the state-of-the-art LMMs exhibit strong instance understanding
capabilities when provided with explicit visual cues. Motivated by this, we
introduce an automated annotation pipeline assisted by GPT-4o to extract
instance-level information from images and videos through explicit visual
prompting for instance guidance. Building upon this pipeline, we proposed
Inst-IT, a solution to enhance LMMs in Instance understanding via explicit
visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose
multimodal instance-level understanding, a large-scale instruction-tuning
dataset, and a continuous instruction-tuning training paradigm to effectively
enhance spatial-temporal instance understanding capabilities of existing LMMs.
Experimental results show that, with the boost of Inst-IT, our models not only
achieve outstanding performance on Inst-IT Bench but also demonstrate
significant improvements across various generic image and video understanding
benchmarks. This highlights that our dataset not only boosts instance-level
understanding but also strengthens the overall capabilities of generic image
and video comprehension.Summary
AI-Generated Summary