ClaimDiff-RL : Apprentissage par renforcement de légendes à granularité fine via la comparaison d'affirmations visuelles

Résumé

Le légendage d'images longues expose un problème de granularité des récompenses en apprentissage par renforcement (RL) : les légendes sont évaluées comme des séquences entières, alors que les erreurs importantes surviennent au niveau des affirmations visuelles individuelles. Une bonne légende dense doit être à la fois fidèle et informative, évitant l'hallucination sans omettre de détails saillants. Pourtant, les préférences par paires, les métriques basées sur une référence et les récompenses scalaires holistiques compressent ces erreurs locales en un seul signal au niveau de la séquence, occultant le compromis entre factualité et couverture. Nous introduisons ClaimDiff-RL, un cadre qui utilise les différences atomiques d'affirmations conditionnées par une référence comme unité de récompense pour le RL de légendage. Étant donné une image, une légende produite par un acteur et une légende de référence, un juge multimodal énumère les différences ancrées visuellement, vérifie chaque différence par rapport à l'image, attribue des types d'erreurs à vocabulaire ouvert et des niveaux de sévérité, et produit des statistiques par différence pour la composition des récompenses. Cela permet de mesurer et d'ajuster séparément les affirmations hallucinées et les faits saillants omis. Les expériences montrent que les récompenses scalaires holistiques peuvent réduire l'hallucination en augmentant les faits manquants, tandis que ClaimDiff-RL expose ce compromis entre fidélité et couverture et permet d'atteindre des points de fonctionnement plus équilibrés. Sur un benchmark diagnostique étiqueté par des humains de 160 images, des benchmarks publics de légendage et des benchmarks de VQA, ClaimDiff-RL améliore l'équilibre entre hallucination et faits manquants, préserve les capacités générales et dépasse même Gemini-3-Pro-Preview sur plusieurs dimensions fines de capacité telles que le comptage d'objets, les relations spatiales et la reconnaissance de scène. Ces résultats suggèrent que les différences d'affirmations typées et vérifiables constituent une unité de récompense efficace pour un RL de légendage fin et diagnosticable.

English

Long-form image captioning exposes a reward granularity problem in RL: captions are judged as whole sequences, while the important errors occur at the level of individual visual claims. A good dense caption should be both faithful and informative, avoiding hallucination without omitting salient details. Yet pairwise preferences, reference-based metrics, and holistic scalar rewards compress these local errors into a single sequence-level signal, obscuring the tradeoff between factuality and coverage. We introduce ClaimDiff-RL, a framework that uses reference-conditioned atomic claim differences as the reward unit for caption RL. Given an image, an actor caption, and a reference caption, a multimodal judge enumerates visually grounded differences, verifies each difference against the image, assigns open-vocabulary error types and severity levels, and produces per-difference statistics for reward composition. This makes hallucinated claims and omitted salient facts separately measurable and tunable. Experiments show that holistic scalar rewards can reduce hallucination by increasing missing facts, while ClaimDiff-RL exposes this faithfulness and coverage tradeoff and enables more balanced operating points. On a 160-image human-labeled diagnostic benchmark, public captioning benchmarks, and VQA benchmarks, ClaimDiff-RL improves the hallucination--missing-fact balance, preserves general capability, and even surpasses Gemini-3-Pro-Preview on several fine-grained Capability dimensions such as object counting, spatial relations, and scene recognition. These results suggest that typed, verifiable claim differences are an effective reward unit for fine-grained and diagnosable caption RL.