VisualQuality-R1: Avaliação da Qualidade de Imagem Induzida por Raciocínio via Aprendizado por Reforço para Classificação

Resumo

O DeepSeek-R1 demonstrou eficácia notável ao incentivar capacidades de raciocínio e generalização em grandes modelos de linguagem (LLMs) por meio de aprendizado por reforço. No entanto, o potencial da modelagem computacional induzida por raciocínio ainda não foi explorado de forma abrangente no contexto da avaliação de qualidade de imagem (IQA), uma tarefa que depende criticamente de raciocínio visual. Neste artigo, apresentamos o VisualQuality-R1, um modelo de IQA sem referência (NR-IQA) induzido por raciocínio, e o treinamos com aprendizado por reforço para classificação, um algoritmo de aprendizado adaptado à natureza intrinsecamente relativa da qualidade visual. Especificamente, para um par de imagens, empregamos a otimização de política relativa em grupo para gerar múltiplas pontuações de qualidade para cada imagem. Essas estimativas são então usadas para calcular probabilidades comparativas de uma imagem ter qualidade superior à outra sob o modelo de Thurstone. As recompensas para cada estimativa de qualidade são definidas usando medidas contínuas de fidelidade, em vez de rótulos binários discretizados. Experimentos extensivos mostram que o VisualQuality-R1 proposto supera consistentemente modelos NR-IQA baseados em aprendizado profundo discriminativo, bem como um método recente de regressão de qualidade induzido por raciocínio. Além disso, o VisualQuality-R1 é capaz de gerar descrições de qualidade contextualmente ricas e alinhadas com a percepção humana, e suporta treinamento com múltiplos conjuntos de dados sem exigir realinhamento de escala perceptual. Essas características tornam o VisualQuality-R1 especialmente adequado para medir de forma confiável o progresso em uma ampla gama de tarefas de processamento de imagem, como super-resolução e geração de imagens.

English

DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing reasoning and generalization capabilities of large language models (LLMs) through reinforcement learning. Nevertheless, the potential of reasoning-induced computational modeling has not been thoroughly explored in the context of image quality assessment (IQA), a task critically dependent on visual reasoning. In this paper, we introduce VisualQuality-R1, a reasoning-induced no-reference IQA (NR-IQA) model, and we train it with reinforcement learning to rank, a learning algorithm tailored to the intrinsically relative nature of visual quality. Specifically, for a pair of images, we employ group relative policy optimization to generate multiple quality scores for each image. These estimates are then used to compute comparative probabilities of one image having higher quality than the other under the Thurstone model. Rewards for each quality estimate are defined using continuous fidelity measures rather than discretized binary labels. Extensive experiments show that the proposed VisualQuality-R1 consistently outperforms discriminative deep learning-based NR-IQA models as well as a recent reasoning-induced quality regression method. Moreover, VisualQuality-R1 is capable of generating contextually rich, human-aligned quality descriptions, and supports multi-dataset training without requiring perceptual scale realignment. These features make VisualQuality-R1 especially well-suited for reliably measuring progress in a wide range of image processing tasks like super-resolution and image generation.

VisualQuality-R1: Avaliação da Qualidade de Imagem Induzida por Raciocínio via Aprendizado por Reforço para Classificação

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

Resumo

Support