CapRL : Stimuler les capacités de description dense d'images via l'apprentissage par renforcement

papers.abstract

La génération de légendes d'images est une tâche fondamentale qui relie les domaines visuel et linguistique, jouant un rôle crucial dans le pré-entraînement des grands modèles vision-langage (LVLMs). Les modèles de légendage d'état de l'art sont généralement entraînés par réglage fin supervisé (SFT), un paradigme qui repose sur des données coûteuses et non extensibles annotées par des humains ou des modèles propriétaires. Cette approche conduit souvent à des modèles qui mémorisent des réponses spécifiques de référence, limitant ainsi leur généralité et leur capacité à générer des descriptions diversifiées et créatives. Pour surmonter les limites du SFT, nous proposons d'appliquer le paradigme d'apprentissage par renforcement avec récompenses vérifiables (RLVR) à la tâche ouverte de légendage d'images. Un défi majeur, cependant, est de concevoir une fonction de récompense objective pour la nature intrinsèquement subjective de ce qui constitue une "bonne" légende. Nous introduisons CapRL (Captioning Reinforcement Learning), un nouveau cadre d'entraînement qui redéfinit la qualité des légendes par leur utilité : une légende de haute qualité devrait permettre à un modèle de langage non visuel de répondre avec précision à des questions sur l'image correspondante. CapRL utilise un pipeline découplé en deux étapes où un LVLM génère une légende, et la récompense objective est dérivée de la précision d'un modèle de langage sans vision (LLM) répondant à des questions à choix multiples basées uniquement sur cette légende. En tant que première étude à appliquer le RLVR à la tâche subjective de légendage d'images, nous démontrons que CapRL améliore significativement plusieurs configurations. Le pré-entraînement sur le jeu de données CapRL-5M annoté par CapRL-3B entraîne des gains substantiels sur 12 benchmarks. De plus, dans le cadre d'évaluation de la qualité des légendes Prism, CapRL atteint des performances comparables à Qwen2.5-VL-72B, tout en dépassant la ligne de base par une marge moyenne de 8,4 %. Le code est disponible ici : https://github.com/InternLM/CapRL.

English

Image captioning is a fundamental task that bridges the visual and linguistic domains, playing a critical role in pre-training Large Vision-Language Models (LVLMs). Current state-of-the-art captioning models are typically trained with Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable data annotated by humans or proprietary models. This approach often leads to models that memorize specific ground-truth answers, limiting their generality and ability to generate diverse, creative descriptions. To overcome the limitation of SFT, we propose applying the Reinforcement Learning with Verifiable Rewards (RLVR) paradigm to the open-ended task of image captioning. A primary challenge, however, is designing an objective reward function for the inherently subjective nature of what constitutes a "good" caption. We introduce Captioning Reinforcement Learning (CapRL), a novel training framework that redefines caption quality through its utility: a high-quality caption should enable a non-visual language model to accurately answer questions about the corresponding image. CapRL employs a decoupled two-stage pipeline where an LVLM generates a caption, and the objective reward is derived from the accuracy of a separate, vision-free LLM answering Multiple-Choice Questions based solely on that caption. As the first study to apply RLVR to the subjective image captioning task, we demonstrate that CapRL significantly enhances multiple settings. Pretraining on the CapRL-5M caption dataset annotated by CapRL-3B results in substantial gains across 12 benchmarks. Moreover, within the Prism Framework for caption quality evaluation, CapRL achieves performance comparable to Qwen2.5-VL-72B, while exceeding the baseline by an average margin of 8.4%. Code is available here: https://github.com/InternLM/CapRL.

CapRL : Stimuler les capacités de description dense d'images via l'apprentissage par renforcement

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

papers.abstract

Support