ChatPaper.aiChatPaper

LaMP-Cap: Gepersonaliseerde Figuurbeschrijving Generatie met Multimodale Figuurprofielen

LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles

June 6, 2025
Auteurs: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang
cs.AI

Samenvatting

Bijschriften bij figuren zijn cruciaal om lezers te helpen de kernboodschap van een figuur te begrijpen en te onthouden. Er zijn veel modellen ontwikkeld om deze bijschriften te genereren, wat auteurs helpt om gemakkelijker bijschriften van betere kwaliteit te schrijven. Toch moeten auteurs vrijwel altijd generieke, door AI gegenereerde bijschriften aanpassen om deze af te stemmen op hun schrijfstijl en de stijl van het domein, wat de noodzaak van personalisatie benadrukt. Ondanks de vooruitgang in personalisatie van taalmodel (LaMP), richten deze technologieën zich vaak op tekstgerichte instellingen en behandelen ze zelden scenario's waarin zowel invoer als profielen multimodaal zijn. Dit artikel introduceert LaMP-Cap, een dataset voor gepersonaliseerde generatie van bijschriften bij figuren met multimodale figuurprofielen. Voor elke doelafbeelding biedt LaMP-Cap niet alleen de benodigde invoer, zoals afbeeldingen van figuren, maar ook maximaal drie andere figuren uit hetzelfde document—elk met zijn afbeelding, bijschrift en alinea's die naar de figuur verwijzen—als een profiel om de context te karakteriseren. Experimenten met vier LLM's laten zien dat het gebruik van profielinformatie consistent helpt om bijschriften te genereren die dichter bij de originele, door de auteur geschreven bijschriften liggen. Ablatiestudies onthullen dat afbeeldingen in het profiel nuttiger zijn dan alinea's die naar figuren verwijzen, wat het voordeel benadrukt van het gebruik van multimodale profielen ten opzichte van alleen tekstuele profielen.
English
Figure captions are crucial for helping readers understand and remember a figure's key message. Many models have been developed to generate these captions, helping authors compose better quality captions more easily. Yet, authors almost always need to revise generic AI-generated captions to match their writing style and the domain's style, highlighting the need for personalization. Despite language models' personalization (LaMP) advances, these technologies often focus on text-only settings and rarely address scenarios where both inputs and profiles are multimodal. This paper introduces LaMP-Cap, a dataset for personalized figure caption generation with multimodal figure profiles. For each target figure, LaMP-Cap provides not only the needed inputs, such as figure images, but also up to three other figures from the same document--each with its image, caption, and figure-mentioning paragraphs--as a profile to characterize the context. Experiments with four LLMs show that using profile information consistently helps generate captions closer to the original author-written ones. Ablation studies reveal that images in the profile are more helpful than figure-mentioning paragraphs, highlighting the advantage of using multimodal profiles over text-only ones.
PDF12June 13, 2025