Hin zu einer offenen visuellen Qualitätsvergleichung
Towards Open-ended Visual Quality Comparison
February 26, 2024
Autoren: Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin
cs.AI
Zusammenfassung
Vergleichende Einstellungen (z. B. paarweise Auswahl, listenweise Rangfolge) wurden in einer Vielzahl subjektiver Studien zur Bildqualitätsbewertung (IQA) übernommen, da sie die Bewertungskriterien über verschiedene Beobachter hinweg standardisieren und klarere Antworten liefern. In dieser Arbeit erweitern wir die Möglichkeiten aufstrebender großer multimodaler Modelle (LMMs), um den visuellen Qualitätsvergleich in offene Einstellungen voranzutreiben, die 1) auf offene Fragen zum Qualitätsvergleich reagieren können und 2) detaillierte Begründungen über direkte Antworten hinaus liefern können. Zu diesem Zweck schlagen wir das Co-Instruct vor. Um diesen erstmaligen Open-Source-Qualitätsvergleicher für offene Einstellungen zu trainieren, sammeln wir den Co-Instruct-562K-Datensatz aus zwei Quellen: (a) LMM-zusammengeführte Einzelbildqualitätsbeschreibungen und (b) GPT-4V-"Lehrer"-Antworten auf unmarkierte Daten. Darüber hinaus schlagen wir zur besseren Bewertung dieser Einstellung den MICBench vor, den ersten Benchmark für den Vergleich mehrerer Bilder für LMMs. Wir zeigen, dass Co-Instruct nicht nur eine 30 % höhere Genauigkeit als state-of-the-art Open-Source-LMMs erreicht, sondern auch GPT-4V (seinen Lehrer) sowohl auf bestehenden verwandten Benchmarks als auch auf dem vorgeschlagenen MICBench übertrifft. Unser Modell ist unter https://huggingface.co/q-future/co-instruct veröffentlicht.
English
Comparative settings (e.g. pairwise choice, listwise ranking) have been
adopted by a wide range of subjective studies for image quality assessment
(IQA), as it inherently standardizes the evaluation criteria across different
observers and offer more clear-cut responses. In this work, we extend the edge
of emerging large multi-modality models (LMMs) to further advance visual
quality comparison into open-ended settings, that 1) can respond to open-range
questions on quality comparison; 2) can provide detailed reasonings beyond
direct answers. To this end, we propose the Co-Instruct. To train this
first-of-its-kind open-source open-ended visual quality comparer, we collect
the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image
quality description, (b) GPT-4V "teacher" responses on unlabeled data.
Furthermore, to better evaluate this setting, we propose the MICBench, the
first benchmark on multi-image comparison for LMMs. We demonstrate that
Co-Instruct not only achieves 30% higher superior accuracy than
state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher),
on both existing related benchmarks and the proposed MICBench. Our model is
published at https://huggingface.co/q-future/co-instruct.