LaMP-Cap : Génération personnalisée de légendes de figures avec profils multimodaux de figures
LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles
June 6, 2025
Auteurs: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang
cs.AI
Résumé
Les légendes des figures sont essentielles pour aider les lecteurs à comprendre et à retenir le message clé d'une figure. De nombreux modèles ont été développés pour générer ces légendes, facilitant ainsi la rédaction de légendes de meilleure qualité par les auteurs. Cependant, les auteurs doivent presque toujours réviser les légendes génériques produites par l'IA pour les adapter à leur style d'écriture et au style du domaine, soulignant ainsi le besoin de personnalisation. Malgré les avancées en matière de personnalisation des modèles de langage (LaMP), ces technologies se concentrent souvent sur des contextes textuels uniquement et abordent rarement des scénarios où les entrées et les profils sont multimodaux. Cet article présente LaMP-Cap, un ensemble de données pour la génération de légendes de figures personnalisées avec des profils de figures multimodaux. Pour chaque figure cible, LaMP-Cap fournit non seulement les entrées nécessaires, telles que les images des figures, mais aussi jusqu'à trois autres figures provenant du même document—chacune avec son image, sa légende et les paragraphes mentionnant la figure—comme profil pour caractériser le contexte. Les expériences menées avec quatre LLM montrent que l'utilisation des informations de profil aide systématiquement à générer des légendes plus proches de celles rédigées par l'auteur original. Les études d'ablation révèlent que les images du profil sont plus utiles que les paragraphes mentionnant la figure, mettant en évidence l'avantage d'utiliser des profils multimodaux par rapport à ceux basés uniquement sur le texte.
English
Figure captions are crucial for helping readers understand and remember a
figure's key message. Many models have been developed to generate these
captions, helping authors compose better quality captions more easily. Yet,
authors almost always need to revise generic AI-generated captions to match
their writing style and the domain's style, highlighting the need for
personalization. Despite language models' personalization (LaMP) advances,
these technologies often focus on text-only settings and rarely address
scenarios where both inputs and profiles are multimodal. This paper introduces
LaMP-Cap, a dataset for personalized figure caption generation with multimodal
figure profiles. For each target figure, LaMP-Cap provides not only the needed
inputs, such as figure images, but also up to three other figures from the same
document--each with its image, caption, and figure-mentioning paragraphs--as a
profile to characterize the context. Experiments with four LLMs show that using
profile information consistently helps generate captions closer to the original
author-written ones. Ablation studies reveal that images in the profile are
more helpful than figure-mentioning paragraphs, highlighting the advantage of
using multimodal profiles over text-only ones.