ChatPaper.aiChatPaper

RONA: Pragmatisch diverse beeldbeschrijvingen met coherentierelaties

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

March 14, 2025
Auteurs: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI

Samenvatting

Schrijfassistenten (bijv. Grammarly, Microsoft Copilot) genereren traditioneel diverse beeldbeschrijvingen door syntactische en semantische variaties te gebruiken om beeldcomponenten te beschrijven. Mensgeschreven bijschriften leggen echter de nadruk op het overbrengen van een centrale boodschap naast visuele beschrijvingen met behulp van pragmatische aanwijzingen. Om de pragmatische diversiteit te vergroten, is het essentieel om alternatieve manieren te verkennen om deze boodschappen in samenhang met visuele inhoud te communiceren. Om deze uitdaging aan te pakken, stellen we RONA voor, een nieuwe promptstrategie voor Multi-modale Grote Taalmodellen (MLLM) die Coherentie Relaties gebruikt als variatie-as. We tonen aan dat RONA bijschriften genereert met een betere algehele diversiteit en afstemming op de grondwaarheid, vergeleken met MLLM-baselines in meerdere domeinen. Onze code is beschikbaar op: https://github.com/aashish2000/RONA
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally generate diverse image captions by employing syntactic and semantic variations to describe image components. However, human-written captions prioritize conveying a central message alongside visual descriptions using pragmatic cues. To enhance pragmatic diversity, it is essential to explore alternative ways of communicating these messages in conjunction with visual content. To address this challenge, we propose RONA, a novel prompting strategy for Multi-modal Large Language Models (MLLM) that leverages Coherence Relations as an axis for variation. We demonstrate that RONA generates captions with better overall diversity and ground-truth alignment, compared to MLLM baselines across multiple domains. Our code is available at: https://github.com/aashish2000/RONA

Summary

AI-Generated Summary

PDF12March 27, 2025