ClaimDiff-RL: Aprendizado por Reforço de Legendas de Granularidade Fina através da Comparação de Alegações Visuais

Resumo

O problema de granularidade de recompensa no RL para legendagem de imagens longas: as legendas são avaliadas como sequências completas, enquanto os erros importantes ocorrem no nível de afirmações visuais individuais. Uma boa legenda densa deve ser fiel e informativa, evitando alucinações sem omitir detalhes salientes. No entanto, preferências pareadas, métricas baseadas em referência e recompensas escalares holísticas comprimem esses erros locais em um único sinal no nível da sequência, obscurecendo o tradeoff entre factualidade e cobertura. Apresentamos o ClaimDiff-RL, uma estrutura que utiliza diferenças atômicas de afirmações condicionadas à referência como unidade de recompensa para RL de legendas. Dada uma imagem, uma legenda do ator e uma legenda de referência, um juiz multimodal enumera diferenças visualmente fundamentadas, verifica cada diferença em relação à imagem, atribui tipos de erro de vocabulário aberto e níveis de gravidade, e produz estatísticas por diferença para composição da recompensa. Isso torna afirmações alucinadas e fatos salientes omitidos separadamente mensuráveis e ajustáveis. Experimentos mostram que recompensas escalares holísticas podem reduzir alucinações aumentando fatos ausentes, enquanto o ClaimDiff-RL expõe esse tradeoff entre fidelidade e cobertura e permite pontos de operação mais equilibrados. Em um benchmark diagnóstico anotado por humanos com 160 imagens, benchmarks públicos de legendagem e benchmarks de VQA, o ClaimDiff-RL melhora o equilíbrio entre alucinação e fatos ausentes, preserva a capacidade geral e até supera o Gemini-3-Pro-Preview em várias dimensões de capacidade refinada, como contagem de objetos, relações espaciais e reconhecimento de cena. Esses resultados sugerem que diferenças de afirmações tipadas e verificáveis são uma unidade de recompensa eficaz para RL de legendas granulada e diagnosticável.

English

Long-form image captioning exposes a reward granularity problem in RL: captions are judged as whole sequences, while the important errors occur at the level of individual visual claims. A good dense caption should be both faithful and informative, avoiding hallucination without omitting salient details. Yet pairwise preferences, reference-based metrics, and holistic scalar rewards compress these local errors into a single sequence-level signal, obscuring the tradeoff between factuality and coverage. We introduce ClaimDiff-RL, a framework that uses reference-conditioned atomic claim differences as the reward unit for caption RL. Given an image, an actor caption, and a reference caption, a multimodal judge enumerates visually grounded differences, verifies each difference against the image, assigns open-vocabulary error types and severity levels, and produces per-difference statistics for reward composition. This makes hallucinated claims and omitted salient facts separately measurable and tunable. Experiments show that holistic scalar rewards can reduce hallucination by increasing missing facts, while ClaimDiff-RL exposes this faithfulness and coverage tradeoff and enables more balanced operating points. On a 160-image human-labeled diagnostic benchmark, public captioning benchmarks, and VQA benchmarks, ClaimDiff-RL improves the hallucination--missing-fact balance, preserves general capability, and even surpasses Gemini-3-Pro-Preview on several fine-grained Capability dimensions such as object counting, spatial relations, and scene recognition. These results suggest that typed, verifiable claim differences are an effective reward unit for fine-grained and diagnosable caption RL.