CapRL: Potenziamento delle Capacità di Descrizione Densa delle Immagini tramite Apprendimento per Rinforzo
CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning
September 26, 2025
Autori: Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Abstract
La generazione di didascalie per immagini è un compito fondamentale che collega i domini visivo e linguistico, svolgendo un ruolo cruciale nel pre-addestramento dei Modelli Linguistico-Visivi di Grande Scala (LVLM). Gli attuali modelli all'avanguardia per la generazione di didascalie sono tipicamente addestrati con il Fine-Tuning Supervisionato (SFT), un paradigma che si basa su dati costosi e non scalabili annotati da esseri umani o modelli proprietari. Questo approccio spesso porta a modelli che memorizzano risposte specifiche e predefinite, limitando la loro generalità e capacità di generare descrizioni diverse e creative. Per superare i limiti del SFT, proponiamo di applicare il paradigma del Reinforcement Learning con Ricompense Verificabili (RLVR) al compito aperto della generazione di didascalie per immagini. Una sfida primaria, tuttavia, è la progettazione di una funzione di ricompensa oggettiva per la natura intrinsecamente soggettiva di ciò che costituisce una "buona" didascalia. Introduciamo il Captioning Reinforcement Learning (CapRL), un nuovo framework di addestramento che ridefinisce la qualità delle didascalie attraverso la loro utilità: una didascalia di alta qualità dovrebbe consentire a un modello linguistico non visivo di rispondere accuratamente a domande sull'immagine corrispondente. CapRL utilizza una pipeline a due stadi disaccoppiati in cui un LVLM genera una didascalia, e la ricompensa oggettiva è derivata dall'accuratezza di un LLM separato, privo di capacità visive, nel rispondere a domande a scelta multipla basate esclusivamente su quella didascalia. Come primo studio ad applicare l'RLVR al compito soggettivo della generazione di didascalie, dimostriamo che CapRL migliora significativamente in molteplici contesti. Il pre-addestramento sul dataset di didascalie CapRL-5M annotato da CapRL-3B comporta guadagni sostanziali su 12 benchmark. Inoltre, all'interno del Framework Prism per la valutazione della qualità delle didascalie, CapRL raggiunge prestazioni comparabili a Qwen2.5-VL-72B, superando la baseline di una media dell'8,4%. Il codice è disponibile qui: https://github.com/InternLM/CapRL.
English
Image captioning is a fundamental task that bridges the visual and linguistic
domains, playing a critical role in pre-training Large Vision-Language Models
(LVLMs). Current state-of-the-art captioning models are typically trained with
Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable
data annotated by humans or proprietary models. This approach often leads to
models that memorize specific ground-truth answers, limiting their generality
and ability to generate diverse, creative descriptions. To overcome the
limitation of SFT, we propose applying the Reinforcement Learning with
Verifiable Rewards (RLVR) paradigm to the open-ended task of image captioning.
A primary challenge, however, is designing an objective reward function for the
inherently subjective nature of what constitutes a "good" caption. We introduce
Captioning Reinforcement Learning (CapRL), a novel training framework that
redefines caption quality through its utility: a high-quality caption should
enable a non-visual language model to accurately answer questions about the
corresponding image. CapRL employs a decoupled two-stage pipeline where an LVLM
generates a caption, and the objective reward is derived from the accuracy of a
separate, vision-free LLM answering Multiple-Choice Questions based solely on
that caption. As the first study to apply RLVR to the subjective image
captioning task, we demonstrate that CapRL significantly enhances multiple
settings. Pretraining on the CapRL-5M caption dataset annotated by CapRL-3B
results in substantial gains across 12 benchmarks. Moreover, within the Prism
Framework for caption quality evaluation, CapRL achieves performance comparable
to Qwen2.5-VL-72B, while exceeding the baseline by an average margin of 8.4%.
Code is available here: https://github.com/InternLM/CapRL.