ChatPaper.aiChatPaper

LaMP-Cap: Generazione Personalizzata di Didascalie per Figure con Profili Multimodali delle Figure

LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles

June 6, 2025
Autori: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang
cs.AI

Abstract

Le didascalie delle figure sono cruciali per aiutare i lettori a comprendere e ricordare il messaggio chiave di una figura. Sono stati sviluppati molti modelli per generare queste didascalie, aiutando gli autori a comporre didascalie di qualità superiore più facilmente. Tuttavia, gli autori quasi sempre devono rivedere le didascalie generiche prodotte dall'IA per adattarle al loro stile di scrittura e allo stile del dominio, evidenziando la necessità di personalizzazione. Nonostante i progressi nella personalizzazione dei modelli linguistici (LaMP), queste tecnologie si concentrano spesso su contesti esclusivamente testuali e raramente affrontano scenari in cui sia gli input che i profili sono multimodali. Questo articolo introduce LaMP-Cap, un dataset per la generazione personalizzata di didascalie di figure con profili multimodali delle figure. Per ogni figura target, LaMP-Cap fornisce non solo gli input necessari, come le immagini delle figure, ma anche fino a tre altre figure dello stesso documento—ciascuna con la sua immagine, didascalia e paragrafi che menzionano la figura—come profilo per caratterizzare il contesto. Esperimenti con quattro LLM dimostrano che l'uso delle informazioni del profilo aiuta costantemente a generare didascalie più vicine a quelle scritte dall'autore originale. Studi di ablazione rivelano che le immagini nel profilo sono più utili dei paragrafi che menzionano la figura, evidenziando il vantaggio dell'uso di profili multimodali rispetto a quelli esclusivamente testuali.
English
Figure captions are crucial for helping readers understand and remember a figure's key message. Many models have been developed to generate these captions, helping authors compose better quality captions more easily. Yet, authors almost always need to revise generic AI-generated captions to match their writing style and the domain's style, highlighting the need for personalization. Despite language models' personalization (LaMP) advances, these technologies often focus on text-only settings and rarely address scenarios where both inputs and profiles are multimodal. This paper introduces LaMP-Cap, a dataset for personalized figure caption generation with multimodal figure profiles. For each target figure, LaMP-Cap provides not only the needed inputs, such as figure images, but also up to three other figures from the same document--each with its image, caption, and figure-mentioning paragraphs--as a profile to characterize the context. Experiments with four LLMs show that using profile information consistently helps generate captions closer to the original author-written ones. Ablation studies reveal that images in the profile are more helpful than figure-mentioning paragraphs, highlighting the advantage of using multimodal profiles over text-only ones.
PDF12June 13, 2025