Q-Instruct: Verbetering van visuele vaardigheden op laag niveau voor multimodale foundation-modellen
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models
November 12, 2023
Auteurs: Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, Geng Xue, Wenxiu Sun, Qiong Yan, Weisi Lin
cs.AI
Samenvatting
Multi-modale foundation models, zoals vertegenwoordigd door GPT-4V, hebben een nieuw paradigma gebracht voor taken op het gebied van visuele waarneming en begrip op laag niveau, die kunnen reageren op een breed scala aan natuurlijke menselijke instructies in een model. Hoewel bestaande foundation models opwindende potenties hebben getoond voor visuele taken op laag niveau, zijn hun gerelateerde vaardigheden nog steeds voorlopig en moeten ze worden verbeterd. Om deze modellen te versterken, voeren we een grootschalig subjectief experiment uit waarbij we een groot aantal echte menselijke feedback verzamelen over visuele waarneming op laag niveau. Elke feedback volgt een pad dat begint met een gedetailleerde beschrijving van het visuele uiterlijk op laag niveau (*bijv. helderheid, kleur, helderheid* van een afbeelding) en eindigt met een algemene conclusie, met een gemiddelde lengte van 45 woorden. De geconstrueerde **Q-Pathway** dataset bevat 58K gedetailleerde menselijke feedbacken over 18.973 afbeeldingen met diverse visuele uiterlijken op laag niveau. Bovendien, om foundation models in staat te stellen robuust te reageren op diverse soorten vragen, ontwerpen we een GPT-geparticipeerde conversie om deze feedbacken te verwerken in diverse formaten van 200K instructie-responsparen. Experimentele resultaten geven aan dat **Q-Instruct** consistent de vaardigheden voor waarneming en begrip op laag niveau verhoogt bij verschillende foundation models. We verwachten dat onze datasets de weg kunnen effenen naar een toekomst waarin algemene intelligentie visueel uiterlijk op laag niveau kan waarnemen, begrijpen en visuele kwaliteit kan evalueren zoals een mens. Onze dataset, model zoo en demo zijn gepubliceerd op: https://q-future.github.io/Q-Instruct.
English
Multi-modality foundation models, as represented by GPT-4V, have brought a
new paradigm for low-level visual perception and understanding tasks, that can
respond to a broad range of natural human instructions in a model. While
existing foundation models have shown exciting potentials on low-level visual
tasks, their related abilities are still preliminary and need to be improved.
In order to enhance these models, we conduct a large-scale subjective
experiment collecting a vast number of real human feedbacks on low-level
vision. Each feedback follows a pathway that starts with a detailed description
on the low-level visual appearance (*e.g. clarity, color, brightness* of an
image, and ends with an overall conclusion, with an average length of 45 words.
The constructed **Q-Pathway** dataset includes 58K detailed human feedbacks on
18,973 images with diverse low-level appearance. Moreover, to enable foundation
models to robustly respond to diverse types of questions, we design a
GPT-participated conversion to process these feedbacks into diverse-format 200K
instruction-response pairs. Experimental results indicate that the
**Q-Instruct** consistently elevates low-level perception and understanding
abilities across several foundational models. We anticipate that our datasets
can pave the way for a future that general intelligence can perceive,
understand low-level visual appearance and evaluate visual quality like a
human. Our dataset, model zoo, and demo is published at:
https://q-future.github.io/Q-Instruct.