Q-Instruct: Aprimorando Habilidades Visuais de Baixo Nível para Modelos de Fundação Multimodais
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models
November 12, 2023
Autores: Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, Geng Xue, Wenxiu Sun, Qiong Yan, Weisi Lin
cs.AI
Resumo
Modelos de fundação multimodais, representados pelo GPT-4V, trouxeram um novo paradigma para tarefas de percepção e compreensão visual de baixo nível, capazes de responder a uma ampla gama de instruções humanas naturais em um modelo. Embora os modelos de fundação existentes tenham demonstrado potenciais promissores em tarefas visuais de baixo nível, suas habilidades relacionadas ainda são preliminares e precisam ser aprimoradas. Para melhorar esses modelos, realizamos um experimento subjetivo em larga escala, coletando um vasto número de feedbacks humanos reais sobre visão de baixo nível. Cada feedback segue um caminho que começa com uma descrição detalhada da aparência visual de baixo nível (*por exemplo, clareza, cor, brilho* de uma imagem) e termina com uma conclusão geral, com uma média de 45 palavras. O conjunto de dados **Q-Pathway** construído inclui 58K feedbacks humanos detalhados sobre 18.973 imagens com diversas aparências de baixo nível. Além disso, para permitir que os modelos de fundação respondam de forma robusta a diversos tipos de perguntas, projetamos uma conversão com participação do GPT para processar esses feedbacks em 200K pares de instrução-resposta em formatos diversos. Os resultados experimentais indicam que o **Q-Instruct** eleva consistentemente as habilidades de percepção e compreensão de baixo nível em vários modelos de fundação. Antecipamos que nossos conjuntos de dados podem abrir caminho para um futuro em que a inteligência geral possa perceber, compreender a aparência visual de baixo nível e avaliar a qualidade visual como um humano. Nosso conjunto de dados, modelo zoo e demo estão publicados em: https://q-future.github.io/Q-Instruct.
English
Multi-modality foundation models, as represented by GPT-4V, have brought a
new paradigm for low-level visual perception and understanding tasks, that can
respond to a broad range of natural human instructions in a model. While
existing foundation models have shown exciting potentials on low-level visual
tasks, their related abilities are still preliminary and need to be improved.
In order to enhance these models, we conduct a large-scale subjective
experiment collecting a vast number of real human feedbacks on low-level
vision. Each feedback follows a pathway that starts with a detailed description
on the low-level visual appearance (*e.g. clarity, color, brightness* of an
image, and ends with an overall conclusion, with an average length of 45 words.
The constructed **Q-Pathway** dataset includes 58K detailed human feedbacks on
18,973 images with diverse low-level appearance. Moreover, to enable foundation
models to robustly respond to diverse types of questions, we design a
GPT-participated conversion to process these feedbacks into diverse-format 200K
instruction-response pairs. Experimental results indicate that the
**Q-Instruct** consistently elevates low-level perception and understanding
abilities across several foundational models. We anticipate that our datasets
can pave the way for a future that general intelligence can perceive,
understand low-level visual appearance and evaluate visual quality like a
human. Our dataset, model zoo, and demo is published at:
https://q-future.github.io/Q-Instruct.