Verso un Confronto Aperto della Qualità Visiva
Towards Open-ended Visual Quality Comparison
February 26, 2024
Autori: Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin
cs.AI
Abstract
Le impostazioni comparative (ad esempio, scelta a coppie, ranking a lista) sono state adottate da un'ampia gamma di studi soggettivi per la valutazione della qualità delle immagini (IQA), poiché standardizzano intrinsecamente i criteri di valutazione tra diversi osservatori e offrono risposte più chiare. In questo lavoro, estendiamo le capacità dei modelli multimodali di grandi dimensioni (LMM) emergenti per avanzare ulteriormente nel confronto della qualità visiva in contesti aperti, che 1) possono rispondere a domande a risposta aperta sul confronto di qualità; 2) possono fornire ragionamenti dettagliati oltre alle risposte dirette. A tal fine, proponiamo il Co-Instruct. Per addestrare questo primo comparatore di qualità visiva a risposta aperta open-source, raccogliamo il dataset Co-Instruct-562K da due fonti: (a) descrizioni della qualità di singole immagini fuse con LMM, (b) risposte del "docente" GPT-4V su dati non etichettati. Inoltre, per valutare meglio questa impostazione, proponiamo il MICBench, il primo benchmark sul confronto di più immagini per LMM. Dimostriamo che Co-Instruct non solo raggiunge un'accuratezza superiore del 30% rispetto ai migliori LMM open-source, ma supera anche GPT-4V (il suo docente), sia sui benchmark esistenti correlati che sul MICBench proposto. Il nostro modello è pubblicato su https://huggingface.co/q-future/co-instruct.
English
Comparative settings (e.g. pairwise choice, listwise ranking) have been
adopted by a wide range of subjective studies for image quality assessment
(IQA), as it inherently standardizes the evaluation criteria across different
observers and offer more clear-cut responses. In this work, we extend the edge
of emerging large multi-modality models (LMMs) to further advance visual
quality comparison into open-ended settings, that 1) can respond to open-range
questions on quality comparison; 2) can provide detailed reasonings beyond
direct answers. To this end, we propose the Co-Instruct. To train this
first-of-its-kind open-source open-ended visual quality comparer, we collect
the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image
quality description, (b) GPT-4V "teacher" responses on unlabeled data.
Furthermore, to better evaluate this setting, we propose the MICBench, the
first benchmark on multi-image comparison for LMMs. We demonstrate that
Co-Instruct not only achieves 30% higher superior accuracy than
state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher),
on both existing related benchmarks and the proposed MICBench. Our model is
published at https://huggingface.co/q-future/co-instruct.