ClaimDiff-RL: Fijnmazig caption-versterkingsleren via visuele claimvergelijking

Samenvatting

Uitgebreide beeldbeschrijving (long-form image captioning) legt een probleem van beloningsgranulariteit bloot in RL: beschrijvingen worden beoordeeld als hele sequenties, terwijl de belangrijke fouten zich voordoen op het niveau van individuele visuele claims. Een goede dense caption moet zowel getrouw als informatief zijn, waarbij hallucinatie wordt vermeden zonder opvallende details weg te laten. Toch comprimeren paarsgewijze voorkeuren, referentiegebaseerde metrieken en holistische scalaire beloningen deze lokale fouten in een enkel signaal op sequentieniveau, waardoor de afweging tussen feitelijkheid en dekking wordt vertroebeld. Wij introduceren ClaimDiff-RL, een raamwerk dat referentie-geconditioneerde atomaire claimverschillen gebruikt als de beloningseenheid voor caption-RL. Gegeven een afbeelding, een actor-beschrijving en een referentiebeschrijving, somt een multimodale beoordelaar visueel gefundeerde verschillen op, verifieert elk verschil tegen de afbeelding, wijst open-vocabulaire fouttypen en ernstniveaus toe, en produceert per-verschil statistieken voor de samenstelling van de beloning. Dit maakt gehallucineerde claims en weggelaten opvallende feiten afzonderlijk meetbaar en afstelbaar. Experimenten tonen aan dat holistische scalaire beloningen hallucinatie kunnen verminderen door ontbrekende feiten te vergroten, terwijl ClaimDiff-RL deze afweging tussen getrouwheid en dekking blootlegt en meer gebalanceerde werkpunten mogelijk maakt. Op een door mensen geannoteerde diagnostische benchmark van 160 afbeeldingen, openbare captioning-benchmarks en VQA-benchmarks verbetert ClaimDiff-RL de balans tussen hallucinatie en ontbrekende feiten, behoudt algemene capaciteit, en overtreft zelfs Gemini-3-Pro-Preview op verschillende fijnmazige Capability-dimensies zoals objecttelling, ruimtelijke relaties en scèneherkenning. Deze resultaten suggereren dat getypeerde, verifieerbare claimverschillen een effectieve beloningseenheid zijn voor fijnmazige en diagnoseerbare caption-RL.

English

Long-form image captioning exposes a reward granularity problem in RL: captions are judged as whole sequences, while the important errors occur at the level of individual visual claims. A good dense caption should be both faithful and informative, avoiding hallucination without omitting salient details. Yet pairwise preferences, reference-based metrics, and holistic scalar rewards compress these local errors into a single sequence-level signal, obscuring the tradeoff between factuality and coverage. We introduce ClaimDiff-RL, a framework that uses reference-conditioned atomic claim differences as the reward unit for caption RL. Given an image, an actor caption, and a reference caption, a multimodal judge enumerates visually grounded differences, verifies each difference against the image, assigns open-vocabulary error types and severity levels, and produces per-difference statistics for reward composition. This makes hallucinated claims and omitted salient facts separately measurable and tunable. Experiments show that holistic scalar rewards can reduce hallucination by increasing missing facts, while ClaimDiff-RL exposes this faithfulness and coverage tradeoff and enables more balanced operating points. On a 160-image human-labeled diagnostic benchmark, public captioning benchmarks, and VQA benchmarks, ClaimDiff-RL improves the hallucination--missing-fact balance, preserves general capability, and even surpasses Gemini-3-Pro-Preview on several fine-grained Capability dimensions such as object counting, spatial relations, and scene recognition. These results suggest that typed, verifiable claim differences are an effective reward unit for fine-grained and diagnosable caption RL.