CapRL: Förderung der Fähigkeiten zur dichten Bildbeschreibung durch Verstärkungslernen
CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning
September 26, 2025
papers.authors: Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
papers.abstract
Bildbeschriftung ist eine grundlegende Aufgabe, die die visuelle und linguistische Domäne verbindet und eine entscheidende Rolle beim Vortraining großer visuell-sprachlicher Modelle (Large Vision-Language Models, LVLMs) spielt. Aktuelle state-of-the-art Beschriftungsmodelle werden typischerweise mit Supervised Fine-Tuning (SFT) trainiert, einem Paradigma, das auf teuren, nicht skalierbaren Daten basiert, die von Menschen oder proprietären Modellen annotiert wurden. Dieser Ansatz führt oft dazu, dass Modelle spezifische Ground-Truth-Antworten auswendig lernen, was ihre Allgemeingültigkeit und Fähigkeit zur Erzeugung vielfältiger, kreativer Beschreibungen einschränkt. Um die Grenzen von SFT zu überwinden, schlagen wir vor, das Paradigma des Reinforcement Learning mit verifizierbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) auf die offene Aufgabe der Bildbeschriftung anzuwenden. Eine primäre Herausforderung besteht jedoch darin, eine objektive Belohnungsfunktion für die inhärent subjektive Natur dessen zu entwerfen, was eine „gute“ Beschreibung ausmacht. Wir führen Captioning Reinforcement Learning (CapRL) ein, ein neuartiges Trainingsframework, das die Qualität von Beschreibungen durch ihren Nutzen neu definiert: Eine hochwertige Beschreibung sollte es einem nicht-visuellen Sprachmodell ermöglichen, Fragen zum entsprechenden Bild genau zu beantworten. CapRL verwendet eine entkoppelte zweistufige Pipeline, bei der ein LVLM eine Beschreibung generiert und die objektive Belohnung aus der Genauigkeit eines separaten, visuell freien LLM abgeleitet wird, das Multiple-Choice-Fragen ausschließlich basierend auf dieser Beschreibung beantwortet. Als erste Studie, die RLVR auf die subjektive Aufgabe der Bildbeschriftung anwendet, zeigen wir, dass CapRL mehrere Einstellungen signifikant verbessert. Das Vortraining auf dem CapRL-5M-Beschriftungsdatensatz, der von CapRL-3B annotiert wurde, führt zu erheblichen Verbesserungen über 12 Benchmarks hinweg. Darüber hinaus erreicht CapRL innerhalb des Prism-Frameworks zur Bewertung der Beschreibungsqualität eine Leistung, die mit Qwen2.5-VL-72B vergleichbar ist, während es die Baseline durchschnittlich um 8,4 % übertrifft. Der Code ist hier verfügbar: https://github.com/InternLM/CapRL.
English
Image captioning is a fundamental task that bridges the visual and linguistic
domains, playing a critical role in pre-training Large Vision-Language Models
(LVLMs). Current state-of-the-art captioning models are typically trained with
Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable
data annotated by humans or proprietary models. This approach often leads to
models that memorize specific ground-truth answers, limiting their generality
and ability to generate diverse, creative descriptions. To overcome the
limitation of SFT, we propose applying the Reinforcement Learning with
Verifiable Rewards (RLVR) paradigm to the open-ended task of image captioning.
A primary challenge, however, is designing an objective reward function for the
inherently subjective nature of what constitutes a "good" caption. We introduce
Captioning Reinforcement Learning (CapRL), a novel training framework that
redefines caption quality through its utility: a high-quality caption should
enable a non-visual language model to accurately answer questions about the
corresponding image. CapRL employs a decoupled two-stage pipeline where an LVLM
generates a caption, and the objective reward is derived from the accuracy of a
separate, vision-free LLM answering Multiple-Choice Questions based solely on
that caption. As the first study to apply RLVR to the subjective image
captioning task, we demonstrate that CapRL significantly enhances multiple
settings. Pretraining on the CapRL-5M caption dataset annotated by CapRL-3B
results in substantial gains across 12 benchmarks. Moreover, within the Prism
Framework for caption quality evaluation, CapRL achieves performance comparable
to Qwen2.5-VL-72B, while exceeding the baseline by an average margin of 8.4%.
Code is available here: https://github.com/InternLM/CapRL.