LaMP-Cap: Geração Personalizada de Legendas para Figuras com Perfis Multimodais de Figuras
LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles
June 6, 2025
Autores: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang
cs.AI
Resumo
As legendas de figuras são cruciais para ajudar os leitores a entender e lembrar a mensagem principal de uma figura. Muitos modelos foram desenvolvidos para gerar essas legendas, auxiliando os autores a compor legendas de melhor qualidade com mais facilidade. No entanto, os autores quase sempre precisam revisar as legendas geradas genericamente por IA para adequá-las ao seu estilo de escrita e ao estilo do domínio, destacando a necessidade de personalização. Apesar dos avanços na personalização de modelos de linguagem (LaMP), essas tecnologias geralmente se concentram em configurações apenas de texto e raramente abordam cenários em que tanto as entradas quanto os perfis são multimodais. Este artigo apresenta o LaMP-Cap, um conjunto de dados para geração personalizada de legendas de figuras com perfis multimodais de figuras. Para cada figura alvo, o LaMP-Cap fornece não apenas as entradas necessárias, como imagens da figura, mas também até três outras figuras do mesmo documento—cada uma com sua imagem, legenda e parágrafos que mencionam a figura—como um perfil para caracterizar o contexto. Experimentos com quatro LLMs mostram que o uso de informações de perfil ajuda consistentemente a gerar legendas mais próximas das escritas originalmente pelos autores. Estudos de ablação revelam que as imagens no perfil são mais úteis do que os parágrafos que mencionam a figura, destacando a vantagem de usar perfis multimodais em vez de apenas texto.
English
Figure captions are crucial for helping readers understand and remember a
figure's key message. Many models have been developed to generate these
captions, helping authors compose better quality captions more easily. Yet,
authors almost always need to revise generic AI-generated captions to match
their writing style and the domain's style, highlighting the need for
personalization. Despite language models' personalization (LaMP) advances,
these technologies often focus on text-only settings and rarely address
scenarios where both inputs and profiles are multimodal. This paper introduces
LaMP-Cap, a dataset for personalized figure caption generation with multimodal
figure profiles. For each target figure, LaMP-Cap provides not only the needed
inputs, such as figure images, but also up to three other figures from the same
document--each with its image, caption, and figure-mentioning paragraphs--as a
profile to characterize the context. Experiments with four LLMs show that using
profile information consistently helps generate captions closer to the original
author-written ones. Ablation studies reveal that images in the profile are
more helpful than figure-mentioning paragraphs, highlighting the advantage of
using multimodal profiles over text-only ones.