ChatPaper.aiChatPaper

Inst-IT: Mejorando la Comprensión de Instancias Multimodales a través del Ajuste Explícito de Instrucciones Visuales de Estímulo.

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

December 4, 2024
Autores: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Resumen

Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han logrado avances significativos con el desarrollo del ajuste de instrucciones. Sin embargo, mientras los modelos existentes pueden comprender imágenes y videos a un nivel holístico, todavía tienen dificultades con la comprensión a nivel de instancia que requiere una comprensión y alineación más matizada. La comprensión a nivel de instancia es crucial, ya que se centra en los elementos específicos en los que estamos más interesados. De manera emocionante, investigaciones previas encuentran que los LMMs de vanguardia exhiben sólidas capacidades de comprensión a nivel de instancia cuando se les proporcionan indicaciones visuales explícitas. Motivados por esto, presentamos un proceso de anotación automatizado asistido por GPT-4o para extraer información a nivel de instancia de imágenes y videos a través de indicaciones visuales explícitas para orientación a nivel de instancia. Basándonos en este proceso, proponemos Inst-IT, una solución para mejorar los LMMs en la comprensión a nivel de instancia mediante el Ajuste de Instrucciones con Indicaciones Visuales Explícitas. Inst-IT consta de un punto de referencia para diagnosticar la comprensión a nivel de instancia multimodal, un conjunto de datos de ajuste de instrucciones a gran escala y un paradigma de entrenamiento continuo de ajuste de instrucciones para mejorar de manera efectiva las capacidades de comprensión a nivel de instancia espacial-temporal de los LMMs existentes. Los resultados experimentales muestran que, con el impulso de Inst-IT, nuestros modelos no solo logran un rendimiento sobresaliente en el Banco de Pruebas de Inst-IT, sino que también demuestran mejoras significativas en varios bancos de pruebas de comprensión de imágenes y videos genéricos. Esto destaca que nuestro conjunto de datos no solo impulsa la comprensión a nivel de instancia, sino que también fortalece las capacidades generales de comprensión de imágenes y videos genéricos.
English
Large Multimodal Models (LMMs) have made significant breakthroughs with the advancement of instruction tuning. However, while existing models can understand images and videos at a holistic level, they still struggle with instance-level understanding that requires a more nuanced comprehension and alignment. Instance-level understanding is crucial, as it focuses on the specific elements that we are most interested in. Excitingly, existing works find that the state-of-the-art LMMs exhibit strong instance understanding capabilities when provided with explicit visual cues. Motivated by this, we introduce an automated annotation pipeline assisted by GPT-4o to extract instance-level information from images and videos through explicit visual prompting for instance guidance. Building upon this pipeline, we proposed Inst-IT, a solution to enhance LMMs in Instance understanding via explicit visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose multimodal instance-level understanding, a large-scale instruction-tuning dataset, and a continuous instruction-tuning training paradigm to effectively enhance spatial-temporal instance understanding capabilities of existing LMMs. Experimental results show that, with the boost of Inst-IT, our models not only achieve outstanding performance on Inst-IT Bench but also demonstrate significant improvements across various generic image and video understanding benchmarks. This highlights that our dataset not only boosts instance-level understanding but also strengthens the overall capabilities of generic image and video comprehension.

Summary

AI-Generated Summary

PDF112December 5, 2024