ChatPaper.aiChatPaper

LaMP-Cap: Генерация персонализированных подписей к изображениям с использованием мультимодальных профилей фигур

LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles

June 6, 2025
Авторы: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang
cs.AI

Аннотация

Подписи к рисункам играют ключевую роль в том, чтобы помочь читателям понять и запомнить основное сообщение изображения. Было разработано множество моделей для генерации таких подписей, что позволяет авторам создавать более качественные подписи с меньшими усилиями. Тем не менее, авторам почти всегда приходится редактировать универсальные подписи, сгенерированные искусственным интеллектом, чтобы они соответствовали их стилю письма и стилю конкретной области, что подчеркивает необходимость персонализации. Несмотря на прогресс в персонализации языковых моделей (LaMP), эти технологии часто сосредоточены на текстовых сценариях и редко учитывают ситуации, где как входные данные, так и профили являются мультимодальными. В данной статье представлен LaMP-Cap, набор данных для персонализированной генерации подписей к рисункам с использованием мультимодальных профилей изображений. Для каждого целевого рисунка LaMP-Cap предоставляет не только необходимые входные данные, такие как изображения, но и до трех других рисунков из того же документа — каждый со своим изображением, подписью и абзацами, упоминающими рисунок, — в качестве профиля для характеристики контекста. Эксперименты с четырьмя крупными языковыми моделями (LLM) показывают, что использование информации из профиля последовательно помогает генерировать подписи, более близкие к тем, что написаны авторами. Абляционные исследования показывают, что изображения в профиле более полезны, чем абзацы, упоминающие рисунок, что подчеркивает преимущество использования мультимодальных профилей по сравнению с текстовыми.
English
Figure captions are crucial for helping readers understand and remember a figure's key message. Many models have been developed to generate these captions, helping authors compose better quality captions more easily. Yet, authors almost always need to revise generic AI-generated captions to match their writing style and the domain's style, highlighting the need for personalization. Despite language models' personalization (LaMP) advances, these technologies often focus on text-only settings and rarely address scenarios where both inputs and profiles are multimodal. This paper introduces LaMP-Cap, a dataset for personalized figure caption generation with multimodal figure profiles. For each target figure, LaMP-Cap provides not only the needed inputs, such as figure images, but also up to three other figures from the same document--each with its image, caption, and figure-mentioning paragraphs--as a profile to characterize the context. Experiments with four LLMs show that using profile information consistently helps generate captions closer to the original author-written ones. Ablation studies reveal that images in the profile are more helpful than figure-mentioning paragraphs, highlighting the advantage of using multimodal profiles over text-only ones.
PDF12June 13, 2025