VisualQuality-R1: Redenering-Gestuurde Beoordeling van Beeldkwaliteit via Reinforcement Learning voor Rangschikking

Samenvatting

DeepSeek-R1 heeft opmerkelijke effectiviteit getoond in het stimuleren van redeneer- en generalisatievaardigheden van grote taalmodel(len) (LLM's) door middel van reinforcement learning. Desalniettemin is het potentieel van redenering-geïnduceerd computationeel modelleren nog niet grondig onderzocht in de context van beeldkwaliteitsbeoordeling (IQA), een taak die cruciaal afhankelijk is van visueel redeneren. In dit artikel introduceren we VisualQuality-R1, een redenering-geïnduceerd no-reference IQA (NR-IQA) model, en trainen we het met reinforcement learning to rank, een leeralgoritme dat is afgestemd op de intrinsiek relatieve aard van visuele kwaliteit. Specifiek gebruiken we voor een paar afbeeldingen group relative policy optimization om meerdere kwaliteitsscores voor elke afbeelding te genereren. Deze schattingen worden vervolgens gebruikt om vergelijkende waarschijnlijkheden te berekenen dat de ene afbeelding een hogere kwaliteit heeft dan de andere onder het Thurstone-model. Beloningen voor elke kwaliteitsschatting worden gedefinieerd met behulp van continue betrouwbaarheidsmaten in plaats van gediscretiseerde binaire labels. Uitgebreide experimenten tonen aan dat het voorgestelde VisualQuality-R1 consistent beter presteert dan discriminerende deep learning-gebaseerde NR-IQA-modellen, evenals een recente redenering-geïnduceerde kwaliteitsregressiemethode. Bovendien is VisualQuality-R1 in staat om contextueel rijke, op mensen afgestemde kwaliteitsbeschrijvingen te genereren en ondersteunt het multi-dataset training zonder dat er een herschaling van de perceptuele schaal nodig is. Deze eigenschappen maken VisualQuality-R1 bijzonder geschikt voor het betrouwbaar meten van voortgang in een breed scala aan beeldverwerkingstaken zoals superresolutie en beeldgeneratie.

English

DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing reasoning and generalization capabilities of large language models (LLMs) through reinforcement learning. Nevertheless, the potential of reasoning-induced computational modeling has not been thoroughly explored in the context of image quality assessment (IQA), a task critically dependent on visual reasoning. In this paper, we introduce VisualQuality-R1, a reasoning-induced no-reference IQA (NR-IQA) model, and we train it with reinforcement learning to rank, a learning algorithm tailored to the intrinsically relative nature of visual quality. Specifically, for a pair of images, we employ group relative policy optimization to generate multiple quality scores for each image. These estimates are then used to compute comparative probabilities of one image having higher quality than the other under the Thurstone model. Rewards for each quality estimate are defined using continuous fidelity measures rather than discretized binary labels. Extensive experiments show that the proposed VisualQuality-R1 consistently outperforms discriminative deep learning-based NR-IQA models as well as a recent reasoning-induced quality regression method. Moreover, VisualQuality-R1 is capable of generating contextually rich, human-aligned quality descriptions, and supports multi-dataset training without requiring perceptual scale realignment. These features make VisualQuality-R1 especially well-suited for reliably measuring progress in a wide range of image processing tasks like super-resolution and image generation.

VisualQuality-R1: Redenering-Gestuurde Beoordeling van Beeldkwaliteit via Reinforcement Learning voor Rangschikking

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

Samenvatting

Summary

Support

Support