ClaimDiff-RL: Мелкозернистое обучение с подкреплением для генерации подписей на основе сравнения визуальных утверждений

Аннотация

Длинные подписи к изображениям выявляют проблему гранулярности вознаграждения в обучении с подкреплением (RL): подписи оцениваются как целые последовательности, в то время как важные ошибки происходят на уровне отдельных визуальных утверждений. Хорошая плотная подпись должна быть одновременно точной и информативной, избегая галлюцинаций без пропуска важных деталей. Однако попарные предпочтения, метрики на основе эталонов и целостные скалярные вознаграждения сжимают эти локальные ошибки в единый сигнал на уровне последовательности, скрывая компромисс между фактологичностью и полнотой. Мы представляем ClaimDiff-RL — фреймворк, который использует обусловленные эталоном атомарные различия утверждений в качестве единицы вознаграждения для RL подписей. Для заданного изображения, подписи актора и эталонной подписи мультимодальный оценщик перечисляет визуально обоснованные различия, проверяет каждое различие на соответствие изображению, назначает типы ошибок с открытым словарём и уровни серьёзности, а также вычисляет статистику по каждому различию для компоновки вознаграждения. Это позволяет отдельно измерять и настраивать галлюцинированные утверждения и пропущенные важные факты. Эксперименты показывают, что целостные скалярные вознаграждения могут уменьшить галлюцинации за счёт увеличения пропущенных фактов, в то время как ClaimDiff-RL выявляет этот компромисс между точностью и полнотой и позволяет достичь более сбалансированных рабочих точек. На человечески размеченном диагностическом бенчмарке из 160 изображений, общедоступных бенчмарках подписей и бенчмарках VQA ClaimDiff-RL улучшает баланс между галлюцинациями и пропущенными фактами, сохраняет общую производительность и даже превосходит Gemini-3-Pro-Preview по нескольким тонким измерениям способностей (Capability), таким как подсчёт объектов, пространственные отношения и распознавание сцен. Эти результаты свидетельствуют о том, что типизированные, проверяемые различия утверждений являются эффективной единицей вознаграждения для точной и диагностируемой RL подписей.

English

Long-form image captioning exposes a reward granularity problem in RL: captions are judged as whole sequences, while the important errors occur at the level of individual visual claims. A good dense caption should be both faithful and informative, avoiding hallucination without omitting salient details. Yet pairwise preferences, reference-based metrics, and holistic scalar rewards compress these local errors into a single sequence-level signal, obscuring the tradeoff between factuality and coverage. We introduce ClaimDiff-RL, a framework that uses reference-conditioned atomic claim differences as the reward unit for caption RL. Given an image, an actor caption, and a reference caption, a multimodal judge enumerates visually grounded differences, verifies each difference against the image, assigns open-vocabulary error types and severity levels, and produces per-difference statistics for reward composition. This makes hallucinated claims and omitted salient facts separately measurable and tunable. Experiments show that holistic scalar rewards can reduce hallucination by increasing missing facts, while ClaimDiff-RL exposes this faithfulness and coverage tradeoff and enables more balanced operating points. On a 160-image human-labeled diagnostic benchmark, public captioning benchmarks, and VQA benchmarks, ClaimDiff-RL improves the hallucination--missing-fact balance, preserves general capability, and even surpasses Gemini-3-Pro-Preview on several fine-grained Capability dimensions such as object counting, spatial relations, and scene recognition. These results suggest that typed, verifiable claim differences are an effective reward unit for fine-grained and diagnosable caption RL.