LaMP-Cap: Personalisierte Bildunterschriftenerstellung mit multimodalen Figurenprofilen

papers.abstract

Bildunterschriften sind entscheidend, um Lesern zu helfen, die Kernaussage einer Abbildung zu verstehen und sich daran zu erinnern. Viele Modelle wurden entwickelt, um solche Unterschriften zu generieren, wodurch Autoren unterstützt werden, qualitativ hochwertigere Unterschriften leichter zu erstellen. Dennoch müssen Autoren generische, KI-generierte Unterschriften fast immer überarbeiten, um sie an ihren Schreibstil und den Stil des Fachgebiets anzupassen, was den Bedarf an Personalisierung unterstreicht. Trotz Fortschritten bei der Personalisierung von Sprachmodellen (LaMP) konzentrieren sich diese Technologien oft auf rein textbasierte Szenarien und behandeln selten Fälle, in denen sowohl Eingaben als auch Profile multimodal sind. Dieses Papier stellt LaMP-Cap vor, einen Datensatz für die personalisierte Generierung von Bildunterschriften mit multimodalen Abbildungsprofilen. Für jede Zielabbildung bietet LaMP-Cap nicht nur die erforderlichen Eingaben, wie Abbildungsbilder, sondern auch bis zu drei weitere Abbildungen aus demselben Dokument – jeweils mit ihrem Bild, ihrer Unterschrift und den Absätzen, die die Abbildung erwähnen – als Profil, um den Kontext zu charakterisieren. Experimente mit vier LLMs zeigen, dass die Verwendung von Profilinformationen konsequent dazu beiträgt, Unterschriften zu generieren, die näher an den ursprünglich vom Autor verfassten liegen. Ablationsstudien zeigen, dass Bilder im Profil hilfreicher sind als Absätze, die die Abbildung erwähnen, was den Vorteil der Verwendung multimodaler Profile gegenüber rein textbasierten Profilen unterstreicht.

English

Figure captions are crucial for helping readers understand and remember a figure's key message. Many models have been developed to generate these captions, helping authors compose better quality captions more easily. Yet, authors almost always need to revise generic AI-generated captions to match their writing style and the domain's style, highlighting the need for personalization. Despite language models' personalization (LaMP) advances, these technologies often focus on text-only settings and rarely address scenarios where both inputs and profiles are multimodal. This paper introduces LaMP-Cap, a dataset for personalized figure caption generation with multimodal figure profiles. For each target figure, LaMP-Cap provides not only the needed inputs, such as figure images, but also up to three other figures from the same document--each with its image, caption, and figure-mentioning paragraphs--as a profile to characterize the context. Experiments with four LLMs show that using profile information consistently helps generate captions closer to the original author-written ones. Ablation studies reveal that images in the profile are more helpful than figure-mentioning paragraphs, highlighting the advantage of using multimodal profiles over text-only ones.

LaMP-Cap: Personalisierte Bildunterschriftenerstellung mit multimodalen Figurenprofilen

LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles

papers.abstract

Support