BalCapRL: Een gebalanceerd raamwerk voor RL-gebaseerde beeldbeschrijving met MLLM
BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning
May 8, 2026
Auteurs: Shaokai Ye, Vasileios Saveris, Yihao Qian, Jiaming Hu, Elmira Amirloo, Peter Grasch
cs.AI
Samenvatting
Beeldonderschriftgeving is een van de meest fundamentele taken in computervisie. Vanwege zijn open-einde karakter heeft het aanzienlijke aandacht gekregen in het tijdperk van multimodale grote taalmodelen (MLLM's). In de zoektocht naar steeds gedetailleerdere en nauwkeurigere onderschriften richt recent onderzoek zich steeds vaker op reinforcement learning (RL). Bestaande RL-methoden voor onderschriftgeving en evaluatiemetrics benadrukken echter vaak een beperkte notie van kwaliteit, wat leidt tot compromissen tussen kernaspecten van onderschriftgeving. Zo kunnen nutsgerichte doelstellingen rommelige, hallucinerende of overlange onderschriften bevorderen die downstream vraag-antwoordtaken verbeteren, maar ten koste gaan van vlotheid, terwijl arena-achtige doelstellingen juist vloeiende maar generieke beschrijvingen met beperkte bruikbaarheid kunnen bevoordelen.
Om dit aan te pakken, stellen we een evenwichtiger RL-raamwerk voor dat gezamenlijk optimaliseert voor nutsbewuste correctheid, referentiedekking en linguïstische kwaliteit. Om de resulterende continue multi-objectieve beloningsformulering effectief te optimaliseren, passen we GDPO-achtige normalisatie met ontkoppelde beloning toe op continue onderschriftbeloningen en tonen we aan dat dit betere prestaties oplevert dan standaard GRPO. Daarnaast introduceren we lengtevoorwaardelijke beloningsmaskering, wat resulteert in een geschiktere lengtestraf voor onderschriftgeving.
Over LLaVA-1.5-7B en Qwen2.5-VL 3B- en 7B-basismodellen heen verbetert onze methode consequent de kwaliteit van onderschriften, met piekverbeteringen van +13,6 DCScore, +9,0 CaptionQA en +29,0 CapArena over verschillende modellen.
English
Image captioning is one of the most fundamental tasks in computer vision. Owing to its open-ended nature, it has received significant attention in the era of multimodal large language models (MLLMs). In pursuit of ever more detailed and accurate captions, recent work has increasingly turned to reinforcement learning (RL). However, existing captioning-RL methods and evaluation metrics often emphasize a narrow notion of caption quality, inducing trade-offs across core dimensions of captioning. For example, utility-oriented objectives can encourage noisy, hallucinated, or overlong captions that improve downstream question answering while harming fluency, whereas arena-style objectives can favor fluent but generic descriptions with limited usefulness. To address this, we propose a more balanced RL framework that jointly optimizes utility-aware correctness, reference coverage, and linguistic quality. In order to effectively optimize the resulting continuous multi-objective reward formulation, we apply GDPO-style reward-decoupled normalization to continuous-valued captioning rewards and show that it improves performance over vanilla GRPO. Additionally, we introduce length-conditional reward masking, yielding a more suitable length penalty for captioning. Across LLaVA-1.5-7B and Qwen2.5-VL 3B and 7B base models, our method consistently improves caption quality, with peak gains of +13.6 DCScore, +9.0 CaptionQA, and +29.0 CapArena across different models.