CapRL: Het stimuleren van dichte beeldbeschrijvingsmogelijkheden via reinforcement learning
CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning
September 26, 2025
Auteurs: Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Samenvatting
Beeldbeschrijving is een fundamentele taak die de visuele en linguïstische domeinen verbindt en een cruciale rol speelt bij het vooraf trainen van Grote Visueel-Taalmodellen (LVLMs). De huidige state-of-the-art beschrijvingsmodellen worden doorgaans getraind met Supervised Fine-Tuning (SFT), een paradigma dat afhankelijk is van dure, niet-schaalbare data die door mensen of propriëtaire modellen zijn geannoteerd. Deze aanpak leidt vaak tot modellen die specifieke grondwaarheid-antwoorden uit het hoofd leren, wat hun algemeenheid en het vermogen om diverse, creatieve beschrijvingen te genereren beperkt. Om de beperkingen van SFT te overwinnen, stellen we voor om het Reinforcement Learning with Verifiable Rewards (RLVR)-paradigma toe te passen op de open-einde taak van beeldbeschrijving. Een primaire uitdaging is echter het ontwerpen van een objectieve beloningsfunctie voor de inherent subjectieve aard van wat een "goede" beschrijving vormt. We introduceren Captioning Reinforcement Learning (CapRL), een nieuw trainingsraamwerk dat de kwaliteit van beschrijvingen herdefinieert door middel van hun nut: een hoogwaardige beschrijving moet een niet-visueel taalmodel in staat stellen om nauwkeurig vragen over het corresponderende beeld te beantwoorden. CapRL maakt gebruik van een ontkoppelde tweefasenpijplijn waarbij een LVLM een beschrijving genereert, en de objectieve beloning wordt afgeleid van de nauwkeurigheid van een apart, visueel-vrij LLM dat meerkeuzevragen beantwoordt uitsluitend op basis van die beschrijving. Als de eerste studie die RLVR toepast op de subjectieve taak van beeldbeschrijving, demonstreren we dat CapRL aanzienlijke verbeteringen biedt in meerdere instellingen. Vooraf trainen op de CapRL-5M beschrijvingsdataset geannoteerd door CapRL-3B resulteert in aanzienlijke winsten over 12 benchmarks. Bovendien behaalt CapRL binnen het Prism Framework voor de evaluatie van beschrijvingskwaliteit prestaties die vergelijkbaar zijn met Qwen2.5-VL-72B, terwijl het de baseline gemiddeld met 8,4% overtreft. Code is hier beschikbaar: https://github.com/InternLM/CapRL.
English
Image captioning is a fundamental task that bridges the visual and linguistic
domains, playing a critical role in pre-training Large Vision-Language Models
(LVLMs). Current state-of-the-art captioning models are typically trained with
Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable
data annotated by humans or proprietary models. This approach often leads to
models that memorize specific ground-truth answers, limiting their generality
and ability to generate diverse, creative descriptions. To overcome the
limitation of SFT, we propose applying the Reinforcement Learning with
Verifiable Rewards (RLVR) paradigm to the open-ended task of image captioning.
A primary challenge, however, is designing an objective reward function for the
inherently subjective nature of what constitutes a "good" caption. We introduce
Captioning Reinforcement Learning (CapRL), a novel training framework that
redefines caption quality through its utility: a high-quality caption should
enable a non-visual language model to accurately answer questions about the
corresponding image. CapRL employs a decoupled two-stage pipeline where an LVLM
generates a caption, and the objective reward is derived from the accuracy of a
separate, vision-free LLM answering Multiple-Choice Questions based solely on
that caption. As the first study to apply RLVR to the subjective image
captioning task, we demonstrate that CapRL significantly enhances multiple
settings. Pretraining on the CapRL-5M caption dataset annotated by CapRL-3B
results in substantial gains across 12 benchmarks. Moreover, within the Prism
Framework for caption quality evaluation, CapRL achieves performance comparable
to Qwen2.5-VL-72B, while exceeding the baseline by an average margin of 8.4%.
Code is available here: https://github.com/InternLM/CapRL.