ChatPaper.aiChatPaper

Vers une comparaison ouverte de la qualité visuelle

Towards Open-ended Visual Quality Comparison

February 26, 2024
Auteurs: Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin
cs.AI

Résumé

Les configurations comparatives (par exemple, choix par paires, classement par liste) ont été largement adoptées dans une variété d'études subjectives pour l'évaluation de la qualité d'image (IQA), car elles standardisent intrinsèquement les critères d'évaluation entre différents observateurs et offrent des réponses plus claires. Dans ce travail, nous repoussons les limites des modèles multimodaux de grande taille (LMMs) émergents pour faire progresser la comparaison de qualité visuelle dans des contextes ouverts, capables de : 1) répondre à des questions ouvertes sur la comparaison de qualité ; 2) fournir des raisonnements détaillés au-delà des réponses directes. À cette fin, nous proposons le Co-Instruct. Pour entraîner ce comparateur de qualité visuelle ouvert et open-source, une première du genre, nous collectons le jeu de données Co-Instruct-562K à partir de deux sources : (a) des descriptions de qualité d'image unique fusionnées par LMM, (b) des réponses de "l'enseignant" GPT-4V sur des données non étiquetées. De plus, pour mieux évaluer ce cadre, nous proposons le MICBench, le premier benchmark pour la comparaison multi-images des LMMs. Nous démontrons que Co-Instruct non seulement atteint une précision supérieure de 30 % par rapport aux LMMs open-source de pointe, mais surpasse également GPT-4V (son enseignant), à la fois sur les benchmarks existants connexes et sur le MICBench proposé. Notre modèle est publié à l'adresse https://huggingface.co/q-future/co-instruct.
English
Comparative settings (e.g. pairwise choice, listwise ranking) have been adopted by a wide range of subjective studies for image quality assessment (IQA), as it inherently standardizes the evaluation criteria across different observers and offer more clear-cut responses. In this work, we extend the edge of emerging large multi-modality models (LMMs) to further advance visual quality comparison into open-ended settings, that 1) can respond to open-range questions on quality comparison; 2) can provide detailed reasonings beyond direct answers. To this end, we propose the Co-Instruct. To train this first-of-its-kind open-source open-ended visual quality comparer, we collect the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image quality description, (b) GPT-4V "teacher" responses on unlabeled data. Furthermore, to better evaluate this setting, we propose the MICBench, the first benchmark on multi-image comparison for LMMs. We demonstrate that Co-Instruct not only achieves 30% higher superior accuracy than state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher), on both existing related benchmarks and the proposed MICBench. Our model is published at https://huggingface.co/q-future/co-instruct.
PDF191December 15, 2024