RubiCap: Aprendizaje por Refuerzo Guiado por Rúbricas para la Generación de Descripciones Densa de Imágenes

Resumen

La descripción densa de imágenes es crucial para la alineación multimodal en el preentrenamiento visión-lenguaje y la generación de imágenes a partir de texto, pero escalar anotaciones de calidad experta resulta prohibitivamente costoso. Si bien la generación sintética de descripciones mediante modelos visión-lenguaje (VLM) potentes es una alternativa práctica, la destilación supervisada suele producir una diversidad limitada en las salidas y una generalización débil. El aprendizaje por refuerzo (RL) podría superar estas limitaciones, pero sus éxitos hasta ahora se han concentrado en dominios verificables que dependen de comprobadores deterministas, un lujo no disponible en la descripción abierta. Abordamos este cuello de botella con RubiCap, un novedoso framework de RL que obtiene señales de recompensa específicas por muestra y de grano fino a partir de rúbricas escritas por LLM. RubiCap primero reúne un comité diverso de descripciones candidatas, luego emplea un escritor de rúbricas basado en LLM para extraer fortalezas consensuadas y diagnosticar deficiencias en la política actual. Estas percepciones se convierten en criterios de evaluación explícitos, permitiendo que un juez LLM descomponga la evaluación de calidad holística y reemplace las recompensas escalares generales con evaluaciones estructuradas y multifacéticas. En extensos benchmarks, RubiCap logra las tasas de preferencia más altas en CapArena, superando a la destilación supervisada, métodos previos de RL, anotaciones de expertos humanos y salidas aumentadas con GPT-4V. En CaptionQA, demuestra una eficiencia léxica superior: nuestro modelo de 7B iguala a Qwen2.5-VL-32B-Instruct, y nuestro modelo de 3B supera a su contraparte de 7B. Notablemente, usar el compacto RubiCap-3B como generador de descripciones produce VLMs preentrenados más robustos que aquellos entrenados con descripciones de modelos propietarios.

English

Dense image captioning is critical for cross-modal alignment in vision-language pretraining and text-to-image generation, but scaling expert-quality annotations is prohibitively expensive. While synthetic captioning via strong vision-language models (VLMs) is a practical alternative, supervised distillation often yields limited output diversity and weak generalization. Reinforcement learning (RL) could overcome these limitations, but its successes have so far been concentrated in verifiable domains that rely on deterministic checkers -- a luxury not available in open-ended captioning. We address this bottleneck with RubiCap, a novel RL framework that derives fine-grained, sample-specific reward signals from LLM-written rubrics. RubiCap first assembles a diverse committee of candidate captions, then employs an LLM rubric writer to extract consensus strengths and diagnose deficiencies in the current policy. These insights are converted into explicit evaluation criteria, enabling an LLM judge to decompose holistic quality assessment and replace coarse scalar rewards with structured, multi-faceted evaluations. Across extensive benchmarks, RubiCap achieves the highest win rates on CapArena, outperforming supervised distillation, prior RL methods, human-expert annotations, and GPT-4V-augmented outputs. On CaptionQA, it demonstrates superior word efficiency: our 7B model matches Qwen2.5-VL-32B-Instruct, and our 3B model surpasses its 7B counterpart. Remarkably, using the compact RubiCap-3B as a captioner produces stronger pretrained VLMs than those trained on captions from proprietary models.

RubiCap: Aprendizaje por Refuerzo Guiado por Rúbricas para la Generación de Descripciones Densa de Imágenes

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Resumen

Support