BalCapRL: Сбалансированный фреймворк для описания изображений на основе MLLM с обучением с подкреплением

Аннотация

Генерация подписей к изображениям является одной из фундаментальных задач компьютерного зрения. Благодаря своей открытой форме эта задача привлекла значительное внимание в эпоху мультимодальных больших языковых моделей (MLLM). В стремлении получить всё более детальные и точные подписи недавние работы всё чаще обращаются к обучению с подкреплением (RL). Однако существующие методы RL для генерации подписей и метрики оценки зачастую выделяют узкое понимание качества подписей, вызывая компромиссы между ключевыми аспектами. Например, цели, ориентированные на полезность, могут поощрять зашумлённые, галлюцинирующие или чрезмерно длинные подписи, которые улучшают последующее ответы на вопросы, но при этом вредят беглости, тогда как цели в стиле арены могут отдавать предпочтение беглым, но общим описаниям с ограниченной полезностью. Для решения этой проблемы мы предлагаем более сбалансированный фреймворк RL, который совместно оптимизирует полезностно-осознанную корректность, покрытие эталонов и лингвистическое качество. Для эффективной оптимизации полученной непрерывной многокритериальной формулировки вознаграждения мы применяем нормализацию с разделением вознаграждения в стиле GDPO к непрерывным вознаграждениям за подписи и показываем, что это улучшает производительность по сравнению со стандартным GRPO. Кроме того, мы вводим маскирование вознаграждения с учётом длины, что даёт более подходящий штраф за длину для генерации подписей. На базовых моделях LLaVA-1.5-7B, Qwen2.5-VL 3B и 7B наш метод последовательно улучшает качество подписей, достигая пиковых приростов в +13,6 DCScore, +9,0 CaptionQA и +29,0 CapArena на разных моделях.

English

Image captioning is one of the most fundamental tasks in computer vision. Owing to its open-ended nature, it has received significant attention in the era of multimodal large language models (MLLMs). In pursuit of ever more detailed and accurate captions, recent work has increasingly turned to reinforcement learning (RL). However, existing captioning-RL methods and evaluation metrics often emphasize a narrow notion of caption quality, inducing trade-offs across core dimensions of captioning. For example, utility-oriented objectives can encourage noisy, hallucinated, or overlong captions that improve downstream question answering while harming fluency, whereas arena-style objectives can favor fluent but generic descriptions with limited usefulness. To address this, we propose a more balanced RL framework that jointly optimizes utility-aware correctness, reference coverage, and linguistic quality. In order to effectively optimize the resulting continuous multi-objective reward formulation, we apply GDPO-style reward-decoupled normalization to continuous-valued captioning rewards and show that it improves performance over vanilla GRPO. Additionally, we introduce length-conditional reward masking, yielding a more suitable length penalty for captioning. Across LLaVA-1.5-7B and Qwen2.5-VL 3B and 7B base models, our method consistently improves caption quality, with peak gains of +13.6 DCScore, +9.0 CaptionQA, and +29.0 CapArena across different models.