ChatPaper.aiChatPaper

Inst-IT : Amélioration de la compréhension d'instance multimodale grâce à l'ajustement explicite des instructions de prompt visuel.

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

December 4, 2024
Auteurs: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Résumé

Les grands modèles multimodaux (LMM) ont réalisé des avancées significatives grâce au perfectionnement de l'accord d'instructions. Cependant, bien que les modèles existants puissent comprendre les images et les vidéos de manière holistique, ils rencontrent encore des difficultés avec la compréhension au niveau de l'instance qui nécessite une compréhension et un alignement plus nuancés. La compréhension au niveau de l'instance est cruciale car elle se concentre sur les éléments spécifiques qui nous intéressent le plus. De manière excitante, les travaux existants montrent que les LMM de pointe présentent de solides capacités de compréhension au niveau de l'instance lorsqu'ils sont fournis avec des indices visuels explicites. Motivés par cela, nous introduisons un pipeline d'annotation automatisé assisté par GPT-4o pour extraire des informations au niveau de l'instance à partir d'images et de vidéos grâce à des indications visuelles explicites pour un guidage au niveau de l'instance. En nous appuyant sur ce pipeline, nous avons proposé Inst-IT, une solution pour améliorer les LMM dans la compréhension au niveau de l'instance via un Accord d'Instructions avec des indications visuelles explicites. Inst-IT se compose d'un banc d'essai pour diagnostiquer la compréhension au niveau de l'instance multimodale, d'un ensemble de données d'accord d'instructions à grande échelle, et d'un paradigme d'entraînement continu d'accord d'instructions pour améliorer efficacement les capacités de compréhension au niveau de l'instance spatiale-temporelle des LMM existants. Les résultats expérimentaux montrent qu'avec le renforcement d'Inst-IT, nos modèles atteignent non seulement des performances exceptionnelles sur le banc d'essai Inst-IT, mais démontrent également des améliorations significatives sur divers bancs d'essai de compréhension d'images et de vidéos génériques. Cela souligne que notre ensemble de données renforce non seulement la compréhension au niveau de l'instance, mais renforce également les capacités globales de compréhension d'images et de vidéos génériques.
English
Large Multimodal Models (LMMs) have made significant breakthroughs with the advancement of instruction tuning. However, while existing models can understand images and videos at a holistic level, they still struggle with instance-level understanding that requires a more nuanced comprehension and alignment. Instance-level understanding is crucial, as it focuses on the specific elements that we are most interested in. Excitingly, existing works find that the state-of-the-art LMMs exhibit strong instance understanding capabilities when provided with explicit visual cues. Motivated by this, we introduce an automated annotation pipeline assisted by GPT-4o to extract instance-level information from images and videos through explicit visual prompting for instance guidance. Building upon this pipeline, we proposed Inst-IT, a solution to enhance LMMs in Instance understanding via explicit visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose multimodal instance-level understanding, a large-scale instruction-tuning dataset, and a continuous instruction-tuning training paradigm to effectively enhance spatial-temporal instance understanding capabilities of existing LMMs. Experimental results show that, with the boost of Inst-IT, our models not only achieve outstanding performance on Inst-IT Bench but also demonstrate significant improvements across various generic image and video understanding benchmarks. This highlights that our dataset not only boosts instance-level understanding but also strengthens the overall capabilities of generic image and video comprehension.

Summary

AI-Generated Summary

PDF112December 5, 2024