RONA: Прагматически разнообразное создание подписей к изображениям с использованием когерентных отношений
RONA: Pragmatically Diverse Image Captioning with Coherence Relations
March 14, 2025
Авторы: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI
Аннотация
Традиционно помощники в написании текстов (например, Grammarly, Microsoft Copilot) создают разнообразные подписи к изображениям, используя синтаксические и семантические вариации для описания элементов изображения. Однако подписи, написанные людьми, делают акцент на передаче ключевого сообщения наряду с визуальными описаниями, используя прагматические подсказки. Для повышения прагматического разнообразия важно исследовать альтернативные способы передачи этих сообщений в сочетании с визуальным контентом. Для решения этой задачи мы предлагаем RONA — новую стратегию подсказок для мультимодальных больших языковых моделей (MLLM), которая использует когерентные отношения как ось вариации. Мы демонстрируем, что RONA генерирует подписи с лучшим общим разнообразием и соответствием эталонным данным по сравнению с базовыми MLLM в различных областях. Наш код доступен по адресу: https://github.com/aashish2000/RONA.
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally
generate diverse image captions by employing syntactic and semantic variations
to describe image components. However, human-written captions prioritize
conveying a central message alongside visual descriptions using pragmatic cues.
To enhance pragmatic diversity, it is essential to explore alternative ways of
communicating these messages in conjunction with visual content. To address
this challenge, we propose RONA, a novel prompting strategy for Multi-modal
Large Language Models (MLLM) that leverages Coherence Relations as an axis for
variation. We demonstrate that RONA generates captions with better overall
diversity and ground-truth alignment, compared to MLLM baselines across
multiple domains. Our code is available at: https://github.com/aashish2000/RONASummary
AI-Generated Summary