ChatPaper.aiChatPaper

CapRL: Estimulando Capacidades de Descrição Densa de Imagens por meio de Aprendizado por Reforço

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

September 26, 2025
Autores: Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI

Resumo

A geração de legendas para imagens é uma tarefa fundamental que conecta os domínios visual e linguístico, desempenhando um papel crítico no pré-treinamento de Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês). Os modelos de geração de legendas mais avançados atualmente são tipicamente treinados com Ajuste Fino Supervisionado (SFT, na sigla em inglês), um paradigma que depende de dados caros e não escaláveis, anotados por humanos ou modelos proprietários. Essa abordagem frequentemente resulta em modelos que memorizam respostas específicas de referência, limitando sua generalidade e capacidade de gerar descrições diversas e criativas. Para superar as limitações do SFT, propomos a aplicação do paradigma de Aprendizado por Reforço com Recompensas Verificáveis (RLVR, na sigla em inglês) à tarefa aberta de geração de legendas para imagens. Um desafio primário, no entanto, é projetar uma função de recompensa objetiva para a natureza inerentemente subjetiva do que constitui uma "boa" legenda. Introduzimos o Aprendizado por Reforço para Legendagem (CapRL, na sigla em inglês), uma estrutura de treinamento inovadora que redefine a qualidade da legenda por meio de sua utilidade: uma legenda de alta qualidade deve permitir que um modelo de linguagem não visual responda com precisão a perguntas sobre a imagem correspondente. O CapRL emprega um pipeline de duas etapas desacopladas, onde um LVLM gera uma legenda, e a recompensa objetiva é derivada da precisão de um LLM separado, sem acesso visual, ao responder a perguntas de múltipla escolha com base apenas nessa legenda. Como o primeiro estudo a aplicar RLVR à tarefa subjetiva de geração de legendas para imagens, demonstramos que o CapRL melhora significativamente múltiplos cenários. O pré-treinamento no conjunto de dados CapRL-5M, anotado pelo CapRL-3B, resulta em ganhos substanciais em 12 benchmarks. Além disso, dentro da Estrutura Prism para avaliação da qualidade de legendas, o CapRL alcança desempenho comparável ao Qwen2.5-VL-72B, enquanto supera a linha de base por uma margem média de 8,4%. O código está disponível aqui: https://github.com/InternLM/CapRL.
English
Image captioning is a fundamental task that bridges the visual and linguistic domains, playing a critical role in pre-training Large Vision-Language Models (LVLMs). Current state-of-the-art captioning models are typically trained with Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable data annotated by humans or proprietary models. This approach often leads to models that memorize specific ground-truth answers, limiting their generality and ability to generate diverse, creative descriptions. To overcome the limitation of SFT, we propose applying the Reinforcement Learning with Verifiable Rewards (RLVR) paradigm to the open-ended task of image captioning. A primary challenge, however, is designing an objective reward function for the inherently subjective nature of what constitutes a "good" caption. We introduce Captioning Reinforcement Learning (CapRL), a novel training framework that redefines caption quality through its utility: a high-quality caption should enable a non-visual language model to accurately answer questions about the corresponding image. CapRL employs a decoupled two-stage pipeline where an LVLM generates a caption, and the objective reward is derived from the accuracy of a separate, vision-free LLM answering Multiple-Choice Questions based solely on that caption. As the first study to apply RLVR to the subjective image captioning task, we demonstrate that CapRL significantly enhances multiple settings. Pretraining on the CapRL-5M caption dataset annotated by CapRL-3B results in substantial gains across 12 benchmarks. Moreover, within the Prism Framework for caption quality evaluation, CapRL achieves performance comparable to Qwen2.5-VL-72B, while exceeding the baseline by an average margin of 8.4%. Code is available here: https://github.com/InternLM/CapRL.
PDF312September 29, 2025