LaMP-Cap: Generación Personalizada de Leyendas de Figuras con Perfiles Multimodales de Figuras
LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles
June 6, 2025
Autores: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang
cs.AI
Resumen
Los títulos de las figuras son cruciales para ayudar a los lectores a comprender y recordar el mensaje clave de una figura. Se han desarrollado muchos modelos para generar estos títulos, lo que facilita a los autores la composición de títulos de mayor calidad. Sin embargo, los autores casi siempre necesitan revisar los títulos generados por IA de manera genérica para que coincidan con su estilo de escritura y el estilo del dominio, lo que resalta la necesidad de personalización. A pesar de los avances en la personalización de modelos de lenguaje (LaMP), estas tecnologías suelen centrarse en entornos de solo texto y rara vez abordan escenarios donde tanto las entradas como los perfiles son multimodales. Este artículo presenta LaMP-Cap, un conjunto de datos para la generación personalizada de títulos de figuras con perfiles multimodales de figuras. Para cada figura objetivo, LaMP-Cap proporciona no solo las entradas necesarias, como las imágenes de la figura, sino también hasta otras tres figuras del mismo documento, cada una con su imagen, título y párrafos que mencionan la figura, como un perfil para caracterizar el contexto. Los experimentos con cuatro LLM muestran que el uso de información del perfil ayuda consistentemente a generar títulos más cercanos a los escritos originalmente por el autor. Los estudios de ablación revelan que las imágenes en el perfil son más útiles que los párrafos que mencionan la figura, destacando la ventaja de utilizar perfiles multimodales sobre los que solo incluyen texto.
English
Figure captions are crucial for helping readers understand and remember a
figure's key message. Many models have been developed to generate these
captions, helping authors compose better quality captions more easily. Yet,
authors almost always need to revise generic AI-generated captions to match
their writing style and the domain's style, highlighting the need for
personalization. Despite language models' personalization (LaMP) advances,
these technologies often focus on text-only settings and rarely address
scenarios where both inputs and profiles are multimodal. This paper introduces
LaMP-Cap, a dataset for personalized figure caption generation with multimodal
figure profiles. For each target figure, LaMP-Cap provides not only the needed
inputs, such as figure images, but also up to three other figures from the same
document--each with its image, caption, and figure-mentioning paragraphs--as a
profile to characterize the context. Experiments with four LLMs show that using
profile information consistently helps generate captions closer to the original
author-written ones. Ablation studies reveal that images in the profile are
more helpful than figure-mentioning paragraphs, highlighting the advantage of
using multimodal profiles over text-only ones.