Em Direção à Comparação Aberta de Qualidade Visual

Resumo

Configurações comparativas (por exemplo, escolha pareada, classificação em lista) têm sido amplamente adotadas em uma variedade de estudos subjetivos para avaliação da qualidade de imagem (IQA), pois padronizam inerentemente os critérios de avaliação entre diferentes observadores e oferecem respostas mais claras. Neste trabalho, estendemos a capacidade dos emergentes modelos multimodais de grande escala (LMMs) para avançar ainda mais a comparação de qualidade visual em configurações de resposta aberta, que 1) podem responder a perguntas de comparação de qualidade em um espectro aberto; 2) podem fornecer raciocínios detalhados além de respostas diretas. Para isso, propomos o Co-Instruct. Para treinar este comparador de qualidade visual de resposta aberta e de código aberto, pioneiro em seu tipo, coletamos o conjunto de dados Co-Instruct-562K, proveniente de duas fontes: (a) descrições de qualidade de imagem única mescladas por LMMs, (b) respostas do "professor" GPT-4V em dados não rotulados. Além disso, para avaliar melhor essa configuração, propomos o MICBench, o primeiro benchmark de comparação de múltiplas imagens para LMMs. Demonstramos que o Co-Instruct não apenas alcança uma precisão superior 30% maior do que os LMMs de código aberto mais avançados, mas também supera o GPT-4V (seu professor), tanto em benchmarks relacionados existentes quanto no MICBench proposto. Nosso modelo está publicado em https://huggingface.co/q-future/co-instruct.

English

Comparative settings (e.g. pairwise choice, listwise ranking) have been adopted by a wide range of subjective studies for image quality assessment (IQA), as it inherently standardizes the evaluation criteria across different observers and offer more clear-cut responses. In this work, we extend the edge of emerging large multi-modality models (LMMs) to further advance visual quality comparison into open-ended settings, that 1) can respond to open-range questions on quality comparison; 2) can provide detailed reasonings beyond direct answers. To this end, we propose the Co-Instruct. To train this first-of-its-kind open-source open-ended visual quality comparer, we collect the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image quality description, (b) GPT-4V "teacher" responses on unlabeled data. Furthermore, to better evaluate this setting, we propose the MICBench, the first benchmark on multi-image comparison for LMMs. We demonstrate that Co-Instruct not only achieves 30% higher superior accuracy than state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher), on both existing related benchmarks and the proposed MICBench. Our model is published at https://huggingface.co/q-future/co-instruct.

Em Direção à Comparação Aberta de Qualidade Visual

Towards Open-ended Visual Quality Comparison

Resumo

Support