BalCapRL : Un cadre équilibré pour le sous-titrage d'images par MLLM basé sur l'apprentissage par renforcement

Résumé

La génération de légendes d’images est l’une des tâches fondamentales de la vision par ordinateur. En raison de sa nature ouverte, elle a suscité un intérêt considérable à l’ère des modèles de langage multimodaux à grande échelle (MLLMs). Dans la quête de légendes toujours plus détaillées et précises, les travaux récents se tournent de plus en plus vers l’apprentissage par renforcement (RL). Cependant, les méthodes et métriques d’évaluation existantes pour la légende par RL privilégient souvent une notion étroite de la qualité des légendes, induisant des compromis entre les dimensions fondamentales de la légende. Par exemple, les objectifs axés sur l’utilité peuvent encourager des légendes bruitées, hallucinées ou trop longues qui améliorent la réponse aux questions en aval tout en nuisant à la fluidité, tandis que les objectifs de type arène peuvent favoriser des descriptions fluides mais génériques, d’une utilité limitée. Pour y remédier, nous proposons un cadre RL plus équilibré qui optimise conjointement la correction sensible à l’utilité, la couverture des références et la qualité linguistique. Afin d’optimiser efficacement la formulation de récompenses multi-objectifs continues qui en résulte, nous appliquons une normalisation découplée des récompenses de style GDPO aux récompenses continues de légende, et montrons qu’elle améliore les performances par rapport à GRPO classique. De plus, nous introduisons un masquage de récompenses conditionné par la longueur, offrant une pénalité de longueur plus adaptée à la légende. Sur les modèles de base LLaVA-1.5-7B et Qwen2.5-VL 3B et 7B, notre méthode améliore systématiquement la qualité des légendes, avec des gains maximaux de +13,6 DCScore, +9,0 CaptionQA et +29,0 CapArena selon les modèles.

English

Image captioning is one of the most fundamental tasks in computer vision. Owing to its open-ended nature, it has received significant attention in the era of multimodal large language models (MLLMs). In pursuit of ever more detailed and accurate captions, recent work has increasingly turned to reinforcement learning (RL). However, existing captioning-RL methods and evaluation metrics often emphasize a narrow notion of caption quality, inducing trade-offs across core dimensions of captioning. For example, utility-oriented objectives can encourage noisy, hallucinated, or overlong captions that improve downstream question answering while harming fluency, whereas arena-style objectives can favor fluent but generic descriptions with limited usefulness. To address this, we propose a more balanced RL framework that jointly optimizes utility-aware correctness, reference coverage, and linguistic quality. In order to effectively optimize the resulting continuous multi-objective reward formulation, we apply GDPO-style reward-decoupled normalization to continuous-valued captioning rewards and show that it improves performance over vanilla GRPO. Additionally, we introduce length-conditional reward masking, yielding a more suitable length penalty for captioning. Across LLaVA-1.5-7B and Qwen2.5-VL 3B and 7B base models, our method consistently improves caption quality, with peak gains of +13.6 DCScore, +9.0 CaptionQA, and +29.0 CapArena across different models.

BalCapRL : Un cadre équilibré pour le sous-titrage d'images par MLLM basé sur l'apprentissage par renforcement

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

Résumé

Support