BalCapRL: Ein ausgewogenes Framework für die RL-basierte MLLM-Bildunterschriftengenerierung

Zusammenfassung

Bildbeschriftung (Image Captioning) ist eine der grundlegendsten Aufgaben im Bereich Computer Vision. Aufgrund ihres offenen Charakters hat sie im Zeitalter multimodaler großer Sprachmodelle (MLLMs) große Beachtung gefunden. Im Bestreben nach immer detaillierteren und genaueren Beschriftungen setzt die jüngste Forschung zunehmend auf bestärkendes Lernen (Reinforcement Learning, RL). Allerdings legen bestehende RL-Methoden und Evaluationsmetriken für Bildbeschriftung oft einen engen Begriff von Beschriftungsqualität zugrunde, was zu Zielkonflikten zwischen den Kernaspekten der Bildbeschriftung führt. Beispielsweise können nutzenorientierte Zielsetzungen verrauschte, halluzinierte oder überlange Beschriftungen begünstigen, die die nachgelagerte Fragebeantwortung verbessern, aber die Flüssigkeit beeinträchtigen; arena-artige Zielsetzungen hingegen können flüssige, aber generische Beschreibungen mit begrenztem Nutzen bevorzugen. Um dem entgegenzuwirken, schlagen wir ein ausgewogeneres RL-Framework vor, das gleichzeitig nutzenbewusste Korrektheit, Referenzabdeckung und sprachliche Qualität optimiert. Zur effektiven Optimierung der resultierenden kontinuierlichen multikriteriellen Belohnungsformulierung wenden wir eine GDPO-artige belohnungsentkoppelte Normalisierung auf kontinuierliche Beschriftungsbelohnungen an und zeigen, dass diese im Vergleich zu einfachem GRPO die Leistung verbessert. Zusätzlich führen wir eine längenabhängige Belohnungsmaskierung ein, die eine besser geeignete Längenstrafe für die Bildbeschriftung ergibt. In Experimenten mit den Basismodellen LLaVA-1.5-7B und Qwen2.5-VL (3B und 7B) verbessert unsere Methode durchgängig die Beschriftungsqualität, mit Spitzenverbesserungen von +13,6 DCScore, +9,0 CaptionQA und +29,0 CapArena über verschiedene Modelle hinweg.

English

Image captioning is one of the most fundamental tasks in computer vision. Owing to its open-ended nature, it has received significant attention in the era of multimodal large language models (MLLMs). In pursuit of ever more detailed and accurate captions, recent work has increasingly turned to reinforcement learning (RL). However, existing captioning-RL methods and evaluation metrics often emphasize a narrow notion of caption quality, inducing trade-offs across core dimensions of captioning. For example, utility-oriented objectives can encourage noisy, hallucinated, or overlong captions that improve downstream question answering while harming fluency, whereas arena-style objectives can favor fluent but generic descriptions with limited usefulness. To address this, we propose a more balanced RL framework that jointly optimizes utility-aware correctness, reference coverage, and linguistic quality. In order to effectively optimize the resulting continuous multi-objective reward formulation, we apply GDPO-style reward-decoupled normalization to continuous-valued captioning rewards and show that it improves performance over vanilla GRPO. Additionally, we introduce length-conditional reward masking, yielding a more suitable length penalty for captioning. Across LLaVA-1.5-7B and Qwen2.5-VL 3B and 7B base models, our method consistently improves caption quality, with peak gains of +13.6 DCScore, +9.0 CaptionQA, and +29.0 CapArena across different models.

BalCapRL: Ein ausgewogenes Framework für die RL-basierte MLLM-Bildunterschriftengenerierung

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

Zusammenfassung

Support