Hin zu einer offenen visuellen Qualitätsvergleichung

papers.abstract

Vergleichende Einstellungen (z. B. paarweise Auswahl, listenweise Rangfolge) wurden in einer Vielzahl subjektiver Studien zur Bildqualitätsbewertung (IQA) übernommen, da sie die Bewertungskriterien über verschiedene Beobachter hinweg standardisieren und klarere Antworten liefern. In dieser Arbeit erweitern wir die Möglichkeiten aufstrebender großer multimodaler Modelle (LMMs), um den visuellen Qualitätsvergleich in offene Einstellungen voranzutreiben, die 1) auf offene Fragen zum Qualitätsvergleich reagieren können und 2) detaillierte Begründungen über direkte Antworten hinaus liefern können. Zu diesem Zweck schlagen wir das Co-Instruct vor. Um diesen erstmaligen Open-Source-Qualitätsvergleicher für offene Einstellungen zu trainieren, sammeln wir den Co-Instruct-562K-Datensatz aus zwei Quellen: (a) LMM-zusammengeführte Einzelbildqualitätsbeschreibungen und (b) GPT-4V-"Lehrer"-Antworten auf unmarkierte Daten. Darüber hinaus schlagen wir zur besseren Bewertung dieser Einstellung den MICBench vor, den ersten Benchmark für den Vergleich mehrerer Bilder für LMMs. Wir zeigen, dass Co-Instruct nicht nur eine 30 % höhere Genauigkeit als state-of-the-art Open-Source-LMMs erreicht, sondern auch GPT-4V (seinen Lehrer) sowohl auf bestehenden verwandten Benchmarks als auch auf dem vorgeschlagenen MICBench übertrifft. Unser Modell ist unter https://huggingface.co/q-future/co-instruct veröffentlicht.

English

Comparative settings (e.g. pairwise choice, listwise ranking) have been adopted by a wide range of subjective studies for image quality assessment (IQA), as it inherently standardizes the evaluation criteria across different observers and offer more clear-cut responses. In this work, we extend the edge of emerging large multi-modality models (LMMs) to further advance visual quality comparison into open-ended settings, that 1) can respond to open-range questions on quality comparison; 2) can provide detailed reasonings beyond direct answers. To this end, we propose the Co-Instruct. To train this first-of-its-kind open-source open-ended visual quality comparer, we collect the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image quality description, (b) GPT-4V "teacher" responses on unlabeled data. Furthermore, to better evaluate this setting, we propose the MICBench, the first benchmark on multi-image comparison for LMMs. We demonstrate that Co-Instruct not only achieves 30% higher superior accuracy than state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher), on both existing related benchmarks and the proposed MICBench. Our model is published at https://huggingface.co/q-future/co-instruct.

Hin zu einer offenen visuellen Qualitätsvergleichung

Towards Open-ended Visual Quality Comparison

papers.abstract

Support