RONA: Generación de descripciones de imágenes con diversidad pragmática mediante relaciones de coherencia
RONA: Pragmatically Diverse Image Captioning with Coherence Relations
March 14, 2025
Autores: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI
Resumen
Los asistentes de escritura (por ejemplo, Grammarly, Microsoft Copilot) tradicionalmente generan descripciones de imágenes diversas empleando variaciones sintácticas y semánticas para describir los componentes de la imagen. Sin embargo, las descripciones escritas por humanos priorizan transmitir un mensaje central junto con descripciones visuales utilizando señales pragmáticas. Para mejorar la diversidad pragmática, es esencial explorar formas alternativas de comunicar estos mensajes en conjunto con el contenido visual. Para abordar este desafío, proponemos RONA, una novedosa estrategia de indicación para Modelos de Lenguaje Multimodales de Gran Escala (MLLM) que aprovecha las Relaciones de Coherencia como un eje de variación. Demostramos que RONA genera descripciones con una mejor diversidad general y alineación con la verdad de referencia, en comparación con los modelos MLLM de referencia en múltiples dominios. Nuestro código está disponible en: https://github.com/aashish2000/RONA.
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally
generate diverse image captions by employing syntactic and semantic variations
to describe image components. However, human-written captions prioritize
conveying a central message alongside visual descriptions using pragmatic cues.
To enhance pragmatic diversity, it is essential to explore alternative ways of
communicating these messages in conjunction with visual content. To address
this challenge, we propose RONA, a novel prompting strategy for Multi-modal
Large Language Models (MLLM) that leverages Coherence Relations as an axis for
variation. We demonstrate that RONA generates captions with better overall
diversity and ground-truth alignment, compared to MLLM baselines across
multiple domains. Our code is available at: https://github.com/aashish2000/RONASummary
AI-Generated Summary