GPT4RoI: Ajuste por Instrucción de Modelos de Lenguaje de Gran Escala en Regiones de Interés
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
July 7, 2023
Autores: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo
cs.AI
Resumen
El ajuste por instrucciones de modelos de lenguaje de gran escala (LLM) en pares de imagen-texto ha logrado capacidades multimodales de visión y lenguaje sin precedentes. Sin embargo, sus alineaciones visión-lenguaje se construyen únicamente a nivel de imagen, y la falta de alineación a nivel de región limita su avance hacia una comprensión multimodal más detallada. En este artículo, proponemos el ajuste por instrucciones en regiones de interés. El diseño clave consiste en reformular el cuadro delimitador como el formato de instrucción espacial. Las secuencias intercaladas de características visuales extraídas por la instrucción espacial y la incrustación del lenguaje se introducen en el LLM, y se entrenan con datos de región-texto transformados en formato de ajuste por instrucciones. Nuestro modelo de visión-lenguaje a nivel de región, denominado GPT4RoI, ofrece una experiencia conversacional e interactiva completamente nueva que va más allá de la comprensión a nivel de imagen. (1) Controlabilidad: Los usuarios pueden interactuar con nuestro modelo tanto mediante instrucciones de lenguaje como espaciales para ajustar flexiblemente el nivel de detalle de la pregunta. (2) Capacidades: Nuestro modelo no solo admite instrucciones espaciales de una sola región, sino también de múltiples regiones. Esto desbloquea capacidades multimodales a nivel de región, como la descripción detallada de regiones y el razonamiento complejo sobre regiones. (3) Composición: Cualquier detector de objetos disponible puede ser un proveedor de instrucciones espaciales para extraer atributos informativos de objetos de nuestro modelo, como color, forma, material, acción, relación con otros objetos, etc. El código, los datos y la demostración están disponibles en https://github.com/jshilong/GPT4RoI.
English
Instruction tuning large language model (LLM) on image-text pairs has
achieved unprecedented vision-language multimodal abilities. However, their
vision-language alignments are only built on image-level, the lack of
region-level alignment limits their advancements to fine-grained multimodal
understanding. In this paper, we propose instruction tuning on
region-of-interest. The key design is to reformulate the bounding box as the
format of spatial instruction. The interleaved sequences of visual features
extracted by the spatial instruction and the language embedding are input to
LLM, and trained on the transformed region-text data in instruction tuning
format. Our region-level vision-language model, termed as GPT4RoI, brings brand
new conversational and interactive experience beyond image-level understanding.
(1) Controllability: Users can interact with our model by both language and
spatial instructions to flexibly adjust the detail level of the question. (2)
Capacities: Our model supports not only single-region spatial instruction but
also multi-region. This unlocks more region-level multimodal capacities such as
detailed region caption and complex region reasoning. (3) Composition: Any
off-the-shelf object detector can be a spatial instruction provider so as to
mine informative object attributes from our model, like color, shape, material,
action, relation to other objects, etc. The code, data, and demo can be found
at https://github.com/jshilong/GPT4RoI.