ClaimDiff-RL: Aprendizaje por Refuerzo de Subtítulos de Grano Fino mediante Comparación de Afirmaciones Visuales

Resumen

El aprendizaje por refuerzo (RL) para la generación de descripciones largas de imágenes revela un problema de granularidad de la recompensa: las descripciones se evalúan como secuencias completas, mientras que los errores importantes ocurren a nivel de afirmaciones visuales individuales. Una buena descripción densa debe ser tanto fiel como informativa, evitando alucinaciones sin omitir detalles relevantes. Sin embargo, las preferencias por pares, las métricas basadas en referencias y las recompensas escalares holísticas comprimen estos errores locales en una única señal a nivel de secuencia, ocultando el compromiso entre factualidad y cobertura. Presentamos ClaimDiff-RL, un marco que utiliza las diferencias atómicas de afirmaciones condicionadas por referencia como unidad de recompensa para el RL de descripciones. Dada una imagen, una descripción generada y una descripción de referencia, un juez multimodal enumera las diferencias visualmente fundamentadas, verifica cada diferencia con respecto a la imagen, asigna tipos de error de vocabulario abierto y niveles de severidad, y produce estadísticas por diferencia para la composición de la recompensa. Esto permite medir y ajustar por separado las afirmaciones alucinadas y los hechos relevantes omitidos. Los experimentos muestran que las recompensas escalares holísticas pueden reducir la alucinación aumentando los hechos faltantes, mientras que ClaimDiff-RL expone este compromiso entre fidelidad y cobertura y permite puntos de operación más equilibrados. En un benchmark diagnóstico anotado por humanos de 160 imágenes, benchmarks públicos de descripción de imágenes y benchmarks de VQA, ClaimDiff-RL mejora el equilibrio entre alucinación y hechos faltantes, preserva la capacidad general e incluso supera a Gemini-3-Pro-Preview en varias dimensiones de capacidad de grano fino, como el conteo de objetos, las relaciones espaciales y el reconocimiento de escenas. Estos resultados sugieren que las diferencias de afirmaciones tipificadas y verificables son una unidad de recompensa efectiva para el RL de descripciones detalladas y diagnosticables.

English

Long-form image captioning exposes a reward granularity problem in RL: captions are judged as whole sequences, while the important errors occur at the level of individual visual claims. A good dense caption should be both faithful and informative, avoiding hallucination without omitting salient details. Yet pairwise preferences, reference-based metrics, and holistic scalar rewards compress these local errors into a single sequence-level signal, obscuring the tradeoff between factuality and coverage. We introduce ClaimDiff-RL, a framework that uses reference-conditioned atomic claim differences as the reward unit for caption RL. Given an image, an actor caption, and a reference caption, a multimodal judge enumerates visually grounded differences, verifies each difference against the image, assigns open-vocabulary error types and severity levels, and produces per-difference statistics for reward composition. This makes hallucinated claims and omitted salient facts separately measurable and tunable. Experiments show that holistic scalar rewards can reduce hallucination by increasing missing facts, while ClaimDiff-RL exposes this faithfulness and coverage tradeoff and enables more balanced operating points. On a 160-image human-labeled diagnostic benchmark, public captioning benchmarks, and VQA benchmarks, ClaimDiff-RL improves the hallucination--missing-fact balance, preserves general capability, and even surpasses Gemini-3-Pro-Preview on several fine-grained Capability dimensions such as object counting, spatial relations, and scene recognition. These results suggest that typed, verifiable claim differences are an effective reward unit for fine-grained and diagnosable caption RL.