ClaimDiff-RL: Feinkörniges bestärkendes Lernen für Bildunterschriften durch visuellen Behauptungsvergleich

Zusammenfassung

Langform-Bildbeschriftung offenbart ein Problem der Belohnungsgranularität beim bestärkenden Lernen (RL): Bildunterschriften werden als gesamte Sequenzen bewertet, während die wichtigen Fehler auf der Ebene einzelner visueller Behauptungen auftreten. Eine gute detaillierte Bildunterschrift sollte sowohl treu als auch informativ sein, Halluzinationen vermeiden, ohne wichtige Details auszulassen. Paarweise Präferenzen, referenzbasierte Metriken und ganzheitliche skalare Belohnungen komprimieren diese lokalen Fehler jedoch zu einem einzigen Signal auf Sequenzebene und verschleiern so den Zielkonflikt zwischen Faktentreue und Vollständigkeit. Wir stellen ClaimDiff-RL vor, ein Rahmenwerk, das referenzbedingte atomare Behauptungsunterschiede als Belohnungseinheit für das RL von Bildunterschriften verwendet. Für ein gegebenes Bild, eine erzeugte Bildunterschrift und eine Referenzunterschrift erfasst ein multimodaler Beurteiler visuell verankerte Unterschiede, überprüft jeden Unterschied am Bild, ordnet offene Vokabular-Fehlertypen und Schweregrade zu und liefert pro Unterschied Statistiken für die Belohnungszusammensetzung. Dadurch werden halluzinierte Behauptungen und ausgelassene wichtige Fakten getrennt messbar und justierbar. Experimente zeigen, dass ganzheitliche skalare Belohnungen Halluzinationen reduzieren können, indem sie fehlende Fakten erhöhen, während ClaimDiff-RL diesen Zielkonflikt zwischen Treue und Vollständigkeit offenlegt und ausgewogenere Betriebspunkte ermöglicht. Auf einem 160-Bilder umfassenden, manuell annotierten Diagnose-Benchmark, öffentlichen Beschriftungs-Benchmarks und VQA-Benchmarks verbessert ClaimDiff-RL das Gleichgewicht zwischen Halluzination und fehlenden Fakten, bewahrt die allgemeine Leistungsfähigkeit und übertrifft sogar Gemini-3-Pro-Preview in mehreren feinkörnigen Fähigkeitsdimensionen wie Objektzählung, räumlichen Beziehungen und Szenenerkennung. Diese Ergebnisse deuten darauf hin, dass typisierte, überprüfbare Behauptungsunterschiede eine effektive Belohnungseinheit für feinkörniges und diagnostizierbares Beschriftungs-RL darstellen.

English

Long-form image captioning exposes a reward granularity problem in RL: captions are judged as whole sequences, while the important errors occur at the level of individual visual claims. A good dense caption should be both faithful and informative, avoiding hallucination without omitting salient details. Yet pairwise preferences, reference-based metrics, and holistic scalar rewards compress these local errors into a single sequence-level signal, obscuring the tradeoff between factuality and coverage. We introduce ClaimDiff-RL, a framework that uses reference-conditioned atomic claim differences as the reward unit for caption RL. Given an image, an actor caption, and a reference caption, a multimodal judge enumerates visually grounded differences, verifies each difference against the image, assigns open-vocabulary error types and severity levels, and produces per-difference statistics for reward composition. This makes hallucinated claims and omitted salient facts separately measurable and tunable. Experiments show that holistic scalar rewards can reduce hallucination by increasing missing facts, while ClaimDiff-RL exposes this faithfulness and coverage tradeoff and enables more balanced operating points. On a 160-image human-labeled diagnostic benchmark, public captioning benchmarks, and VQA benchmarks, ClaimDiff-RL improves the hallucination--missing-fact balance, preserves general capability, and even surpasses Gemini-3-Pro-Preview on several fine-grained Capability dimensions such as object counting, spatial relations, and scene recognition. These results suggest that typed, verifiable claim differences are an effective reward unit for fine-grained and diagnosable caption RL.