ChatPaper.aiChatPaper

RONA: Geração Pragmaticamente Diversa de Legendas para Imagens com Relações de Coerência

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

March 14, 2025
Autores: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI

Resumo

Assistentes de escrita (por exemplo, Grammarly, Microsoft Copilot) tradicionalmente geram legendas de imagens diversas empregando variações sintáticas e semânticas para descrever componentes da imagem. No entanto, legendas escritas por humanos priorizam a transmissão de uma mensagem central juntamente com descrições visuais, utilizando pistas pragmáticas. Para aprimorar a diversidade pragmática, é essencial explorar maneiras alternativas de comunicar essas mensagens em conjunto com o conteúdo visual. Para enfrentar esse desafio, propomos o RONA, uma nova estratégia de prompt para Modelos de Linguagem Multimodais de Grande Escala (MLLM) que utiliza Relações de Coerência como um eixo de variação. Demonstramos que o RONA gera legendas com melhor diversidade geral e alinhamento com a verdade fundamental, em comparação com modelos MLLM de referência em múltiplos domínios. Nosso código está disponível em: https://github.com/aashish2000/RONA
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally generate diverse image captions by employing syntactic and semantic variations to describe image components. However, human-written captions prioritize conveying a central message alongside visual descriptions using pragmatic cues. To enhance pragmatic diversity, it is essential to explore alternative ways of communicating these messages in conjunction with visual content. To address this challenge, we propose RONA, a novel prompting strategy for Multi-modal Large Language Models (MLLM) that leverages Coherence Relations as an axis for variation. We demonstrate that RONA generates captions with better overall diversity and ground-truth alignment, compared to MLLM baselines across multiple domains. Our code is available at: https://github.com/aashish2000/RONA

Summary

AI-Generated Summary

PDF12March 27, 2025