ChatPaper.aiChatPaper

RONA: Прагматически разнообразное создание подписей к изображениям с использованием когерентных отношений

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

March 14, 2025
Авторы: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI

Аннотация

Традиционно помощники в написании текстов (например, Grammarly, Microsoft Copilot) создают разнообразные подписи к изображениям, используя синтаксические и семантические вариации для описания элементов изображения. Однако подписи, написанные людьми, делают акцент на передаче ключевого сообщения наряду с визуальными описаниями, используя прагматические подсказки. Для повышения прагматического разнообразия важно исследовать альтернативные способы передачи этих сообщений в сочетании с визуальным контентом. Для решения этой задачи мы предлагаем RONA — новую стратегию подсказок для мультимодальных больших языковых моделей (MLLM), которая использует когерентные отношения как ось вариации. Мы демонстрируем, что RONA генерирует подписи с лучшим общим разнообразием и соответствием эталонным данным по сравнению с базовыми MLLM в различных областях. Наш код доступен по адресу: https://github.com/aashish2000/RONA.
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally generate diverse image captions by employing syntactic and semantic variations to describe image components. However, human-written captions prioritize conveying a central message alongside visual descriptions using pragmatic cues. To enhance pragmatic diversity, it is essential to explore alternative ways of communicating these messages in conjunction with visual content. To address this challenge, we propose RONA, a novel prompting strategy for Multi-modal Large Language Models (MLLM) that leverages Coherence Relations as an axis for variation. We demonstrate that RONA generates captions with better overall diversity and ground-truth alignment, compared to MLLM baselines across multiple domains. Our code is available at: https://github.com/aashish2000/RONA

Summary

AI-Generated Summary

PDF12March 27, 2025