ChatPaper.aiChatPaper

LaMP-Cap : Génération personnalisée de légendes de figures avec profils multimodaux de figures

LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles

June 6, 2025
Auteurs: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang
cs.AI

Résumé

Les légendes des figures sont essentielles pour aider les lecteurs à comprendre et à retenir le message clé d'une figure. De nombreux modèles ont été développés pour générer ces légendes, facilitant ainsi la rédaction de légendes de meilleure qualité par les auteurs. Cependant, les auteurs doivent presque toujours réviser les légendes génériques produites par l'IA pour les adapter à leur style d'écriture et au style du domaine, soulignant ainsi le besoin de personnalisation. Malgré les avancées en matière de personnalisation des modèles de langage (LaMP), ces technologies se concentrent souvent sur des contextes textuels uniquement et abordent rarement des scénarios où les entrées et les profils sont multimodaux. Cet article présente LaMP-Cap, un ensemble de données pour la génération de légendes de figures personnalisées avec des profils de figures multimodaux. Pour chaque figure cible, LaMP-Cap fournit non seulement les entrées nécessaires, telles que les images des figures, mais aussi jusqu'à trois autres figures provenant du même document—chacune avec son image, sa légende et les paragraphes mentionnant la figure—comme profil pour caractériser le contexte. Les expériences menées avec quatre LLM montrent que l'utilisation des informations de profil aide systématiquement à générer des légendes plus proches de celles rédigées par l'auteur original. Les études d'ablation révèlent que les images du profil sont plus utiles que les paragraphes mentionnant la figure, mettant en évidence l'avantage d'utiliser des profils multimodaux par rapport à ceux basés uniquement sur le texte.
English
Figure captions are crucial for helping readers understand and remember a figure's key message. Many models have been developed to generate these captions, helping authors compose better quality captions more easily. Yet, authors almost always need to revise generic AI-generated captions to match their writing style and the domain's style, highlighting the need for personalization. Despite language models' personalization (LaMP) advances, these technologies often focus on text-only settings and rarely address scenarios where both inputs and profiles are multimodal. This paper introduces LaMP-Cap, a dataset for personalized figure caption generation with multimodal figure profiles. For each target figure, LaMP-Cap provides not only the needed inputs, such as figure images, but also up to three other figures from the same document--each with its image, caption, and figure-mentioning paragraphs--as a profile to characterize the context. Experiments with four LLMs show that using profile information consistently helps generate captions closer to the original author-written ones. Ablation studies reveal that images in the profile are more helpful than figure-mentioning paragraphs, highlighting the advantage of using multimodal profiles over text-only ones.
PDF12June 13, 2025