Naar Open-Einde Visuele Kwaliteitsvergelijking
Towards Open-ended Visual Quality Comparison
February 26, 2024
Auteurs: Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin
cs.AI
Samenvatting
Vergelijkende instellingen (bijvoorbeeld paarsgewijze keuze, lijstgewijze rangschikking) zijn door een breed scala aan subjectieve studies voor beeldkwaliteitsbeoordeling (IQA) overgenomen, omdat ze de evaluatiecriteria inherent standaardiseren over verschillende waarnemers heen en meer duidelijke antwoorden bieden. In dit werk breiden we de mogelijkheden van opkomende grote multimodale modellen (LMMs) uit om visuele kwaliteitsvergelijking verder te bevorderen naar open-ended instellingen, die 1) kunnen reageren op open-einde vragen over kwaliteitsvergelijking; 2) gedetailleerde redeneringen kunnen bieden naast directe antwoorden. Hiertoe stellen we de Co-Instruct voor. Om deze eerste open-source open-ended visuele kwaliteitsvergelijker te trainen, verzamelen we de Co-Instruct-562K dataset, uit twee bronnen: (a) LMM-geïntegreerde enkele beeldkwaliteitsbeschrijving, (b) GPT-4V "leraar" antwoorden op ongelabelde data. Verder stellen we, om deze instelling beter te evalueren, de MICBench voor, de eerste benchmark voor multi-beeldvergelijking voor LMMs. We tonen aan dat Co-Instruct niet alleen 30% hogere superieure nauwkeurigheid bereikt dan state-of-the-art open-source LMMs, maar ook GPT-4V (zijn leraar) overtreft, zowel op bestaande gerelateerde benchmarks als op de voorgestelde MICBench. Ons model is gepubliceerd op https://huggingface.co/q-future/co-instruct.
English
Comparative settings (e.g. pairwise choice, listwise ranking) have been
adopted by a wide range of subjective studies for image quality assessment
(IQA), as it inherently standardizes the evaluation criteria across different
observers and offer more clear-cut responses. In this work, we extend the edge
of emerging large multi-modality models (LMMs) to further advance visual
quality comparison into open-ended settings, that 1) can respond to open-range
questions on quality comparison; 2) can provide detailed reasonings beyond
direct answers. To this end, we propose the Co-Instruct. To train this
first-of-its-kind open-source open-ended visual quality comparer, we collect
the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image
quality description, (b) GPT-4V "teacher" responses on unlabeled data.
Furthermore, to better evaluate this setting, we propose the MICBench, the
first benchmark on multi-image comparison for LMMs. We demonstrate that
Co-Instruct not only achieves 30% higher superior accuracy than
state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher),
on both existing related benchmarks and the proposed MICBench. Our model is
published at https://huggingface.co/q-future/co-instruct.