Em Direção à Comparação Aberta de Qualidade Visual
Towards Open-ended Visual Quality Comparison
February 26, 2024
Autores: Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin
cs.AI
Resumo
Configurações comparativas (por exemplo, escolha pareada, classificação em lista) têm sido amplamente adotadas em uma variedade de estudos subjetivos para avaliação da qualidade de imagem (IQA), pois padronizam inerentemente os critérios de avaliação entre diferentes observadores e oferecem respostas mais claras. Neste trabalho, estendemos a capacidade dos emergentes modelos multimodais de grande escala (LMMs) para avançar ainda mais a comparação de qualidade visual em configurações de resposta aberta, que 1) podem responder a perguntas de comparação de qualidade em um espectro aberto; 2) podem fornecer raciocínios detalhados além de respostas diretas. Para isso, propomos o Co-Instruct. Para treinar este comparador de qualidade visual de resposta aberta e de código aberto, pioneiro em seu tipo, coletamos o conjunto de dados Co-Instruct-562K, proveniente de duas fontes: (a) descrições de qualidade de imagem única mescladas por LMMs, (b) respostas do "professor" GPT-4V em dados não rotulados. Além disso, para avaliar melhor essa configuração, propomos o MICBench, o primeiro benchmark de comparação de múltiplas imagens para LMMs. Demonstramos que o Co-Instruct não apenas alcança uma precisão superior 30% maior do que os LMMs de código aberto mais avançados, mas também supera o GPT-4V (seu professor), tanto em benchmarks relacionados existentes quanto no MICBench proposto. Nosso modelo está publicado em https://huggingface.co/q-future/co-instruct.
English
Comparative settings (e.g. pairwise choice, listwise ranking) have been
adopted by a wide range of subjective studies for image quality assessment
(IQA), as it inherently standardizes the evaluation criteria across different
observers and offer more clear-cut responses. In this work, we extend the edge
of emerging large multi-modality models (LMMs) to further advance visual
quality comparison into open-ended settings, that 1) can respond to open-range
questions on quality comparison; 2) can provide detailed reasonings beyond
direct answers. To this end, we propose the Co-Instruct. To train this
first-of-its-kind open-source open-ended visual quality comparer, we collect
the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image
quality description, (b) GPT-4V "teacher" responses on unlabeled data.
Furthermore, to better evaluate this setting, we propose the MICBench, the
first benchmark on multi-image comparison for LMMs. We demonstrate that
Co-Instruct not only achieves 30% higher superior accuracy than
state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher),
on both existing related benchmarks and the proposed MICBench. Our model is
published at https://huggingface.co/q-future/co-instruct.