VisualQuality-R1: Avaliação da Qualidade de Imagem Induzida por Raciocínio via Aprendizado por Reforço para Classificação
VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank
May 20, 2025
Autores: Tianhe Wu, Jian Zou, Jie Liang, Lei Zhang, Kede Ma
cs.AI
Resumo
O DeepSeek-R1 demonstrou eficácia notável ao incentivar capacidades de raciocínio e generalização em grandes modelos de linguagem (LLMs) por meio de aprendizado por reforço. No entanto, o potencial da modelagem computacional induzida por raciocínio ainda não foi explorado de forma abrangente no contexto da avaliação de qualidade de imagem (IQA), uma tarefa que depende criticamente de raciocínio visual. Neste artigo, apresentamos o VisualQuality-R1, um modelo de IQA sem referência (NR-IQA) induzido por raciocínio, e o treinamos com aprendizado por reforço para classificação, um algoritmo de aprendizado adaptado à natureza intrinsecamente relativa da qualidade visual. Especificamente, para um par de imagens, empregamos a otimização de política relativa em grupo para gerar múltiplas pontuações de qualidade para cada imagem. Essas estimativas são então usadas para calcular probabilidades comparativas de uma imagem ter qualidade superior à outra sob o modelo de Thurstone. As recompensas para cada estimativa de qualidade são definidas usando medidas contínuas de fidelidade, em vez de rótulos binários discretizados. Experimentos extensivos mostram que o VisualQuality-R1 proposto supera consistentemente modelos NR-IQA baseados em aprendizado profundo discriminativo, bem como um método recente de regressão de qualidade induzido por raciocínio. Além disso, o VisualQuality-R1 é capaz de gerar descrições de qualidade contextualmente ricas e alinhadas com a percepção humana, e suporta treinamento com múltiplos conjuntos de dados sem exigir realinhamento de escala perceptual. Essas características tornam o VisualQuality-R1 especialmente adequado para medir de forma confiável o progresso em uma ampla gama de tarefas de processamento de imagem, como super-resolução e geração de imagens.
English
DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing
reasoning and generalization capabilities of large language models (LLMs)
through reinforcement learning. Nevertheless, the potential of
reasoning-induced computational modeling has not been thoroughly explored in
the context of image quality assessment (IQA), a task critically dependent on
visual reasoning. In this paper, we introduce VisualQuality-R1, a
reasoning-induced no-reference IQA (NR-IQA) model, and we train it with
reinforcement learning to rank, a learning algorithm tailored to the
intrinsically relative nature of visual quality. Specifically, for a pair of
images, we employ group relative policy optimization to generate multiple
quality scores for each image. These estimates are then used to compute
comparative probabilities of one image having higher quality than the other
under the Thurstone model. Rewards for each quality estimate are defined using
continuous fidelity measures rather than discretized binary labels. Extensive
experiments show that the proposed VisualQuality-R1 consistently outperforms
discriminative deep learning-based NR-IQA models as well as a recent
reasoning-induced quality regression method. Moreover, VisualQuality-R1 is
capable of generating contextually rich, human-aligned quality descriptions,
and supports multi-dataset training without requiring perceptual scale
realignment. These features make VisualQuality-R1 especially well-suited for
reliably measuring progress in a wide range of image processing tasks like
super-resolution and image generation.