RONA: Geração Pragmaticamente Diversa de Legendas para Imagens com Relações de Coerência
RONA: Pragmatically Diverse Image Captioning with Coherence Relations
March 14, 2025
Autores: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI
Resumo
Assistentes de escrita (por exemplo, Grammarly, Microsoft Copilot) tradicionalmente geram legendas de imagens diversas empregando variações sintáticas e semânticas para descrever componentes da imagem. No entanto, legendas escritas por humanos priorizam a transmissão de uma mensagem central juntamente com descrições visuais, utilizando pistas pragmáticas. Para aprimorar a diversidade pragmática, é essencial explorar maneiras alternativas de comunicar essas mensagens em conjunto com o conteúdo visual. Para enfrentar esse desafio, propomos o RONA, uma nova estratégia de prompt para Modelos de Linguagem Multimodais de Grande Escala (MLLM) que utiliza Relações de Coerência como um eixo de variação. Demonstramos que o RONA gera legendas com melhor diversidade geral e alinhamento com a verdade fundamental, em comparação com modelos MLLM de referência em múltiplos domínios. Nosso código está disponível em: https://github.com/aashish2000/RONA
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally
generate diverse image captions by employing syntactic and semantic variations
to describe image components. However, human-written captions prioritize
conveying a central message alongside visual descriptions using pragmatic cues.
To enhance pragmatic diversity, it is essential to explore alternative ways of
communicating these messages in conjunction with visual content. To address
this challenge, we propose RONA, a novel prompting strategy for Multi-modal
Large Language Models (MLLM) that leverages Coherence Relations as an axis for
variation. We demonstrate that RONA generates captions with better overall
diversity and ground-truth alignment, compared to MLLM baselines across
multiple domains. Our code is available at: https://github.com/aashish2000/RONASummary
AI-Generated Summary