BalCapRL: Un Marco Equilibrado para la Descripción de Imágenes con MLLM Basados en RL

Resumen

La generación de descripciones de imágenes es una de las tareas más fundamentales en visión por computadora. Debido a su naturaleza abierta, ha recibido una atención significativa en la era de los modelos de lenguaje grandes multimodales (MLLMs). En la búsqueda de descripciones cada vez más detalladas y precisas, los trabajos recientes han recurrido cada vez más al aprendizaje por refuerzo (RL). Sin embargo, los métodos actuales de RL para descripciones y las métricas de evaluación a menudo enfatizan una noción estrecha de calidad de la descripción, generando compromisos entre dimensiones fundamentales de la tarea. Por ejemplo, los objetivos orientados a la utilidad pueden fomentar descripciones ruidosas, alucinadas o excesivamente largas que mejoran la respuesta a preguntas posteriores, pero perjudican la fluidez, mientras que los objetivos tipo arena pueden favorecer descripciones fluidas pero genéricas con utilidad limitada. Para abordar esto, proponemos un marco de RL más equilibrado que optimiza conjuntamente la corrección consciente de la utilidad, la cobertura de referencias y la calidad lingüística. Con el fin de optimizar eficazmente la formulación de recompensa multiobjetivo continua resultante, aplicamos la normalización desacoplada de recompensas al estilo GDPO a las recompensas continuas de descripción y demostramos que mejora el rendimiento en comparación con GRPO estándar. Además, introducimos el enmascaramiento de recompensas condicionado por longitud, lo que proporciona una penalización por longitud más adecuada para la descripción. En los modelos base LLaVA-1.5-7B y Qwen2.5-VL 3B y 7B, nuestro método mejora consistentemente la calidad de las descripciones, con ganancias máximas de +13.6 DCScore, +9.0 CaptionQA y +29.0 CapArena en diferentes modelos.

English

Image captioning is one of the most fundamental tasks in computer vision. Owing to its open-ended nature, it has received significant attention in the era of multimodal large language models (MLLMs). In pursuit of ever more detailed and accurate captions, recent work has increasingly turned to reinforcement learning (RL). However, existing captioning-RL methods and evaluation metrics often emphasize a narrow notion of caption quality, inducing trade-offs across core dimensions of captioning. For example, utility-oriented objectives can encourage noisy, hallucinated, or overlong captions that improve downstream question answering while harming fluency, whereas arena-style objectives can favor fluent but generic descriptions with limited usefulness. To address this, we propose a more balanced RL framework that jointly optimizes utility-aware correctness, reference coverage, and linguistic quality. In order to effectively optimize the resulting continuous multi-objective reward formulation, we apply GDPO-style reward-decoupled normalization to continuous-valued captioning rewards and show that it improves performance over vanilla GRPO. Additionally, we introduce length-conditional reward masking, yielding a more suitable length penalty for captioning. Across LLaVA-1.5-7B and Qwen2.5-VL 3B and 7B base models, our method consistently improves caption quality, with peak gains of +13.6 DCScore, +9.0 CaptionQA, and +29.0 CapArena across different models.

BalCapRL: Un Marco Equilibrado para la Descripción de Imágenes con MLLM Basados en RL

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

Resumen

Support