Q-Instruct: Aprimorando Habilidades Visuais de Baixo Nível para Modelos de Fundação Multimodais

Resumo

Modelos de fundação multimodais, representados pelo GPT-4V, trouxeram um novo paradigma para tarefas de percepção e compreensão visual de baixo nível, capazes de responder a uma ampla gama de instruções humanas naturais em um modelo. Embora os modelos de fundação existentes tenham demonstrado potenciais promissores em tarefas visuais de baixo nível, suas habilidades relacionadas ainda são preliminares e precisam ser aprimoradas. Para melhorar esses modelos, realizamos um experimento subjetivo em larga escala, coletando um vasto número de feedbacks humanos reais sobre visão de baixo nível. Cada feedback segue um caminho que começa com uma descrição detalhada da aparência visual de baixo nível (*por exemplo, clareza, cor, brilho* de uma imagem) e termina com uma conclusão geral, com uma média de 45 palavras. O conjunto de dados **Q-Pathway** construído inclui 58K feedbacks humanos detalhados sobre 18.973 imagens com diversas aparências de baixo nível. Além disso, para permitir que os modelos de fundação respondam de forma robusta a diversos tipos de perguntas, projetamos uma conversão com participação do GPT para processar esses feedbacks em 200K pares de instrução-resposta em formatos diversos. Os resultados experimentais indicam que o **Q-Instruct** eleva consistentemente as habilidades de percepção e compreensão de baixo nível em vários modelos de fundação. Antecipamos que nossos conjuntos de dados podem abrir caminho para um futuro em que a inteligência geral possa perceber, compreender a aparência visual de baixo nível e avaliar a qualidade visual como um humano. Nosso conjunto de dados, modelo zoo e demo estão publicados em: https://q-future.github.io/Q-Instruct.

English

Multi-modality foundation models, as represented by GPT-4V, have brought a new paradigm for low-level visual perception and understanding tasks, that can respond to a broad range of natural human instructions in a model. While existing foundation models have shown exciting potentials on low-level visual tasks, their related abilities are still preliminary and need to be improved. In order to enhance these models, we conduct a large-scale subjective experiment collecting a vast number of real human feedbacks on low-level vision. Each feedback follows a pathway that starts with a detailed description on the low-level visual appearance (*e.g. clarity, color, brightness* of an image, and ends with an overall conclusion, with an average length of 45 words. The constructed **Q-Pathway** dataset includes 58K detailed human feedbacks on 18,973 images with diverse low-level appearance. Moreover, to enable foundation models to robustly respond to diverse types of questions, we design a GPT-participated conversion to process these feedbacks into diverse-format 200K instruction-response pairs. Experimental results indicate that the **Q-Instruct** consistently elevates low-level perception and understanding abilities across several foundational models. We anticipate that our datasets can pave the way for a future that general intelligence can perceive, understand low-level visual appearance and evaluate visual quality like a human. Our dataset, model zoo, and demo is published at: https://q-future.github.io/Q-Instruct.

Q-Instruct: Aprimorando Habilidades Visuais de Baixo Nível para Modelos de Fundação Multimodais

Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

Resumo

Support