CapRL : Stimuler les capacités de description dense d'images via l'apprentissage par renforcement
CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning
September 26, 2025
papers.authors: Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
papers.abstract
La génération de légendes d'images est une tâche fondamentale qui relie les domaines visuel et linguistique, jouant un rôle crucial dans le pré-entraînement des grands modèles vision-langage (LVLMs). Les modèles de légendage d'état de l'art sont généralement entraînés par réglage fin supervisé (SFT), un paradigme qui repose sur des données coûteuses et non extensibles annotées par des humains ou des modèles propriétaires. Cette approche conduit souvent à des modèles qui mémorisent des réponses spécifiques de référence, limitant ainsi leur généralité et leur capacité à générer des descriptions diversifiées et créatives. Pour surmonter les limites du SFT, nous proposons d'appliquer le paradigme d'apprentissage par renforcement avec récompenses vérifiables (RLVR) à la tâche ouverte de légendage d'images. Un défi majeur, cependant, est de concevoir une fonction de récompense objective pour la nature intrinsèquement subjective de ce qui constitue une "bonne" légende. Nous introduisons CapRL (Captioning Reinforcement Learning), un nouveau cadre d'entraînement qui redéfinit la qualité des légendes par leur utilité : une légende de haute qualité devrait permettre à un modèle de langage non visuel de répondre avec précision à des questions sur l'image correspondante. CapRL utilise un pipeline découplé en deux étapes où un LVLM génère une légende, et la récompense objective est dérivée de la précision d'un modèle de langage sans vision (LLM) répondant à des questions à choix multiples basées uniquement sur cette légende. En tant que première étude à appliquer le RLVR à la tâche subjective de légendage d'images, nous démontrons que CapRL améliore significativement plusieurs configurations. Le pré-entraînement sur le jeu de données CapRL-5M annoté par CapRL-3B entraîne des gains substantiels sur 12 benchmarks. De plus, dans le cadre d'évaluation de la qualité des légendes Prism, CapRL atteint des performances comparables à Qwen2.5-VL-72B, tout en dépassant la ligne de base par une marge moyenne de 8,4 %. Le code est disponible ici : https://github.com/InternLM/CapRL.
English
Image captioning is a fundamental task that bridges the visual and linguistic
domains, playing a critical role in pre-training Large Vision-Language Models
(LVLMs). Current state-of-the-art captioning models are typically trained with
Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable
data annotated by humans or proprietary models. This approach often leads to
models that memorize specific ground-truth answers, limiting their generality
and ability to generate diverse, creative descriptions. To overcome the
limitation of SFT, we propose applying the Reinforcement Learning with
Verifiable Rewards (RLVR) paradigm to the open-ended task of image captioning.
A primary challenge, however, is designing an objective reward function for the
inherently subjective nature of what constitutes a "good" caption. We introduce
Captioning Reinforcement Learning (CapRL), a novel training framework that
redefines caption quality through its utility: a high-quality caption should
enable a non-visual language model to accurately answer questions about the
corresponding image. CapRL employs a decoupled two-stage pipeline where an LVLM
generates a caption, and the objective reward is derived from the accuracy of a
separate, vision-free LLM answering Multiple-Choice Questions based solely on
that caption. As the first study to apply RLVR to the subjective image
captioning task, we demonstrate that CapRL significantly enhances multiple
settings. Pretraining on the CapRL-5M caption dataset annotated by CapRL-3B
results in substantial gains across 12 benchmarks. Moreover, within the Prism
Framework for caption quality evaluation, CapRL achieves performance comparable
to Qwen2.5-VL-72B, while exceeding the baseline by an average margin of 8.4%.
Code is available here: https://github.com/InternLM/CapRL.