Q-Instruct : Amélioration des capacités visuelles de bas niveau pour les modèles fondateurs multimodaux
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models
November 12, 2023
Auteurs: Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, Geng Xue, Wenxiu Sun, Qiong Yan, Weisi Lin
cs.AI
Résumé
Les modèles de fondation multi-modaux, représentés par GPT-4V, ont introduit un nouveau paradigme pour les tâches de perception et de compréhension visuelle de bas niveau, permettant de répondre à un large éventail d'instructions humaines naturelles dans un modèle. Bien que les modèles de fondation existants aient montré des potentialités prometteuses pour les tâches visuelles de bas niveau, leurs capacités connexes restent préliminaires et nécessitent d'être améliorées. Afin d'améliorer ces modèles, nous avons mené une expérience subjective à grande échelle, recueillant un grand nombre de retours humains réels sur la vision de bas niveau. Chaque retour suit un parcours qui commence par une description détaillée de l'apparence visuelle de bas niveau (*par exemple, la clarté, la couleur, la luminosité* d'une image) et se termine par une conclusion globale, avec une longueur moyenne de 45 mots. Le jeu de données **Q-Pathway** construit comprend 58 000 retours humains détaillés sur 18 973 images présentant des apparences de bas niveau variées. De plus, pour permettre aux modèles de fondation de répondre de manière robuste à divers types de questions, nous avons conçu une conversion impliquant GPT pour transformer ces retours en 200 000 paires instruction-réponse de formats variés. Les résultats expérimentaux indiquent que **Q-Instruct** améliore de manière constante les capacités de perception et de compréhension de bas niveau à travers plusieurs modèles de fondation. Nous anticipons que nos jeux de données peuvent ouvrir la voie à un avenir où l'intelligence générale pourra percevoir, comprendre l'apparence visuelle de bas niveau et évaluer la qualité visuelle comme un humain. Notre jeu de données, zoo de modèles et démonstration sont publiés à l'adresse : https://q-future.github.io/Q-Instruct.
English
Multi-modality foundation models, as represented by GPT-4V, have brought a
new paradigm for low-level visual perception and understanding tasks, that can
respond to a broad range of natural human instructions in a model. While
existing foundation models have shown exciting potentials on low-level visual
tasks, their related abilities are still preliminary and need to be improved.
In order to enhance these models, we conduct a large-scale subjective
experiment collecting a vast number of real human feedbacks on low-level
vision. Each feedback follows a pathway that starts with a detailed description
on the low-level visual appearance (*e.g. clarity, color, brightness* of an
image, and ends with an overall conclusion, with an average length of 45 words.
The constructed **Q-Pathway** dataset includes 58K detailed human feedbacks on
18,973 images with diverse low-level appearance. Moreover, to enable foundation
models to robustly respond to diverse types of questions, we design a
GPT-participated conversion to process these feedbacks into diverse-format 200K
instruction-response pairs. Experimental results indicate that the
**Q-Instruct** consistently elevates low-level perception and understanding
abilities across several foundational models. We anticipate that our datasets
can pave the way for a future that general intelligence can perceive,
understand low-level visual appearance and evaluate visual quality like a
human. Our dataset, model zoo, and demo is published at:
https://q-future.github.io/Q-Instruct.