VisualQuality-R1 : Évaluation de la qualité d'image induite par le raisonnement via l'apprentissage par renforcement pour le classement
VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank
May 20, 2025
Auteurs: Tianhe Wu, Jian Zou, Jie Liang, Lei Zhang, Kede Ma
cs.AI
Résumé
DeepSeek-R1 a démontré une efficacité remarquable pour stimuler les capacités de raisonnement et de généralisation des grands modèles de langage (LLMs) grâce à l'apprentissage par renforcement. Cependant, le potentiel de la modélisation computationnelle induite par le raisonnement n'a pas été pleinement exploré dans le contexte de l'évaluation de la qualité d'image (IQA), une tâche qui dépend de manière critique du raisonnement visuel. Dans cet article, nous présentons VisualQuality-R1, un modèle de IQA sans référence (NR-IQA) induit par le raisonnement, que nous entraînons avec un apprentissage par renforcement pour le classement, un algorithme d'apprentissage adapté à la nature intrinsèquement relative de la qualité visuelle. Plus précisément, pour une paire d'images, nous utilisons l'optimisation de politique relative par groupe pour générer plusieurs scores de qualité pour chaque image. Ces estimations sont ensuite utilisées pour calculer les probabilités comparatives qu'une image ait une qualité supérieure à l'autre selon le modèle de Thurstone. Les récompenses pour chaque estimation de qualité sont définies à l'aide de mesures de fidélité continues plutôt que d'étiquettes binaires discrètes. Des expériences approfondies montrent que le modèle proposé VisualQuality-R1 surpasse systématiquement les modèles NR-IQA basés sur l'apprentissage profond discriminatif ainsi qu'une méthode récente de régression de qualité induite par le raisonnement. De plus, VisualQuality-R1 est capable de générer des descriptions de qualité riches en contexte et alignées sur les jugements humains, et prend en charge l'entraînement multi-dataset sans nécessiter de réalignement d'échelle perceptuelle. Ces caractéristiques rendent VisualQuality-R1 particulièrement bien adapté pour mesurer de manière fiable les progrès dans un large éventail de tâches de traitement d'image, telles que la super-résolution et la génération d'images.
English
DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing
reasoning and generalization capabilities of large language models (LLMs)
through reinforcement learning. Nevertheless, the potential of
reasoning-induced computational modeling has not been thoroughly explored in
the context of image quality assessment (IQA), a task critically dependent on
visual reasoning. In this paper, we introduce VisualQuality-R1, a
reasoning-induced no-reference IQA (NR-IQA) model, and we train it with
reinforcement learning to rank, a learning algorithm tailored to the
intrinsically relative nature of visual quality. Specifically, for a pair of
images, we employ group relative policy optimization to generate multiple
quality scores for each image. These estimates are then used to compute
comparative probabilities of one image having higher quality than the other
under the Thurstone model. Rewards for each quality estimate are defined using
continuous fidelity measures rather than discretized binary labels. Extensive
experiments show that the proposed VisualQuality-R1 consistently outperforms
discriminative deep learning-based NR-IQA models as well as a recent
reasoning-induced quality regression method. Moreover, VisualQuality-R1 is
capable of generating contextually rich, human-aligned quality descriptions,
and supports multi-dataset training without requiring perceptual scale
realignment. These features make VisualQuality-R1 especially well-suited for
reliably measuring progress in a wide range of image processing tasks like
super-resolution and image generation.Summary
AI-Generated Summary