RONA : Génération pragmatiquement diversifiée de légendes d'images avec relations de cohérence
RONA: Pragmatically Diverse Image Captioning with Coherence Relations
March 14, 2025
Auteurs: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI
Résumé
Les assistants de rédaction (par exemple, Grammarly, Microsoft Copilot) génèrent traditionnellement des légendes d'images diversifiées en employant des variations syntaxiques et sémantiques pour décrire les composants de l'image. Cependant, les légendes rédigées par des humains privilégient la transmission d'un message central tout en intégrant des descriptions visuelles à l'aide d'indices pragmatiques. Pour améliorer la diversité pragmatique, il est essentiel d'explorer des moyens alternatifs de communiquer ces messages en conjonction avec le contenu visuel. Pour relever ce défi, nous proposons RONA, une nouvelle stratégie de prompt pour les modèles de langage multi-modaux (MLLM) qui exploite les relations de cohérence comme axe de variation. Nous démontrons que RONA génère des légendes présentant une meilleure diversité globale et un meilleur alignement avec la réalité, comparé aux modèles de référence MLLM dans plusieurs domaines. Notre code est disponible à l'adresse : https://github.com/aashish2000/RONA
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally
generate diverse image captions by employing syntactic and semantic variations
to describe image components. However, human-written captions prioritize
conveying a central message alongside visual descriptions using pragmatic cues.
To enhance pragmatic diversity, it is essential to explore alternative ways of
communicating these messages in conjunction with visual content. To address
this challenge, we propose RONA, a novel prompting strategy for Multi-modal
Large Language Models (MLLM) that leverages Coherence Relations as an axis for
variation. We demonstrate that RONA generates captions with better overall
diversity and ground-truth alignment, compared to MLLM baselines across
multiple domains. Our code is available at: https://github.com/aashish2000/RONASummary
AI-Generated Summary