LaMP-Cap: Personalisierte Bildunterschriftenerstellung mit multimodalen Figurenprofilen
LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles
June 6, 2025
Autoren: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang
cs.AI
Zusammenfassung
Bildunterschriften sind entscheidend, um Lesern zu helfen, die Kernaussage einer Abbildung zu verstehen und sich daran zu erinnern. Viele Modelle wurden entwickelt, um solche Unterschriften zu generieren, wodurch Autoren unterstützt werden, qualitativ hochwertigere Unterschriften leichter zu erstellen. Dennoch müssen Autoren generische, KI-generierte Unterschriften fast immer überarbeiten, um sie an ihren Schreibstil und den Stil des Fachgebiets anzupassen, was den Bedarf an Personalisierung unterstreicht. Trotz Fortschritten bei der Personalisierung von Sprachmodellen (LaMP) konzentrieren sich diese Technologien oft auf rein textbasierte Szenarien und behandeln selten Fälle, in denen sowohl Eingaben als auch Profile multimodal sind. Dieses Papier stellt LaMP-Cap vor, einen Datensatz für die personalisierte Generierung von Bildunterschriften mit multimodalen Abbildungsprofilen. Für jede Zielabbildung bietet LaMP-Cap nicht nur die erforderlichen Eingaben, wie Abbildungsbilder, sondern auch bis zu drei weitere Abbildungen aus demselben Dokument – jeweils mit ihrem Bild, ihrer Unterschrift und den Absätzen, die die Abbildung erwähnen – als Profil, um den Kontext zu charakterisieren. Experimente mit vier LLMs zeigen, dass die Verwendung von Profilinformationen konsequent dazu beiträgt, Unterschriften zu generieren, die näher an den ursprünglich vom Autor verfassten liegen. Ablationsstudien zeigen, dass Bilder im Profil hilfreicher sind als Absätze, die die Abbildung erwähnen, was den Vorteil der Verwendung multimodaler Profile gegenüber rein textbasierten Profilen unterstreicht.
English
Figure captions are crucial for helping readers understand and remember a
figure's key message. Many models have been developed to generate these
captions, helping authors compose better quality captions more easily. Yet,
authors almost always need to revise generic AI-generated captions to match
their writing style and the domain's style, highlighting the need for
personalization. Despite language models' personalization (LaMP) advances,
these technologies often focus on text-only settings and rarely address
scenarios where both inputs and profiles are multimodal. This paper introduces
LaMP-Cap, a dataset for personalized figure caption generation with multimodal
figure profiles. For each target figure, LaMP-Cap provides not only the needed
inputs, such as figure images, but also up to three other figures from the same
document--each with its image, caption, and figure-mentioning paragraphs--as a
profile to characterize the context. Experiments with four LLMs show that using
profile information consistently helps generate captions closer to the original
author-written ones. Ablation studies reveal that images in the profile are
more helpful than figure-mentioning paragraphs, highlighting the advantage of
using multimodal profiles over text-only ones.