Q-Instruct: Mejora de las capacidades visuales de bajo nivel para modelos fundacionales multimodales
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models
November 12, 2023
Autores: Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, Geng Xue, Wenxiu Sun, Qiong Yan, Weisi Lin
cs.AI
Resumen
Los modelos fundacionales multimodales, representados por GPT-4V, han introducido un nuevo paradigma para tareas de percepción y comprensión visual de bajo nivel, permitiendo responder a una amplia gama de instrucciones naturales humanas en un modelo. Aunque los modelos fundacionales existentes han mostrado un potencial prometedor en tareas visuales de bajo nivel, sus capacidades relacionadas aún son preliminares y necesitan mejorarse. Para potenciar estos modelos, llevamos a cabo un experimento subjetivo a gran escala, recopilando un vasto número de comentarios reales de humanos sobre visión de bajo nivel. Cada comentario sigue una ruta que comienza con una descripción detallada de la apariencia visual de bajo nivel (*por ejemplo, claridad, color, brillo* de una imagen) y termina con una conclusión general, con una longitud promedio de 45 palabras. El conjunto de datos **Q-Pathway** construido incluye 58K comentarios humanos detallados sobre 18,973 imágenes con diversas apariencias de bajo nivel. Además, para permitir que los modelos fundacionales respondan de manera robusta a diversos tipos de preguntas, diseñamos una conversión con participación de GPT para procesar estos comentarios en 200K pares de instrucción-respuesta de diversos formatos. Los resultados experimentales indican que **Q-Instruct** eleva consistentemente las capacidades de percepción y comprensión de bajo nivel en varios modelos fundacionales. Anticipamos que nuestros conjuntos de datos pueden allanar el camino hacia un futuro en el que la inteligencia general pueda percibir, comprender la apariencia visual de bajo nivel y evaluar la calidad visual como lo haría un humano. Nuestro conjunto de datos, modelo zoo y demo están publicados en: https://q-future.github.io/Q-Instruct.
English
Multi-modality foundation models, as represented by GPT-4V, have brought a
new paradigm for low-level visual perception and understanding tasks, that can
respond to a broad range of natural human instructions in a model. While
existing foundation models have shown exciting potentials on low-level visual
tasks, their related abilities are still preliminary and need to be improved.
In order to enhance these models, we conduct a large-scale subjective
experiment collecting a vast number of real human feedbacks on low-level
vision. Each feedback follows a pathway that starts with a detailed description
on the low-level visual appearance (*e.g. clarity, color, brightness* of an
image, and ends with an overall conclusion, with an average length of 45 words.
The constructed **Q-Pathway** dataset includes 58K detailed human feedbacks on
18,973 images with diverse low-level appearance. Moreover, to enable foundation
models to robustly respond to diverse types of questions, we design a
GPT-participated conversion to process these feedbacks into diverse-format 200K
instruction-response pairs. Experimental results indicate that the
**Q-Instruct** consistently elevates low-level perception and understanding
abilities across several foundational models. We anticipate that our datasets
can pave the way for a future that general intelligence can perceive,
understand low-level visual appearance and evaluate visual quality like a
human. Our dataset, model zoo, and demo is published at:
https://q-future.github.io/Q-Instruct.