LaMP-Cap: Generación Personalizada de Leyendas de Figuras con Perfiles Multimodales de Figuras

Resumen

Los títulos de las figuras son cruciales para ayudar a los lectores a comprender y recordar el mensaje clave de una figura. Se han desarrollado muchos modelos para generar estos títulos, lo que facilita a los autores la composición de títulos de mayor calidad. Sin embargo, los autores casi siempre necesitan revisar los títulos generados por IA de manera genérica para que coincidan con su estilo de escritura y el estilo del dominio, lo que resalta la necesidad de personalización. A pesar de los avances en la personalización de modelos de lenguaje (LaMP), estas tecnologías suelen centrarse en entornos de solo texto y rara vez abordan escenarios donde tanto las entradas como los perfiles son multimodales. Este artículo presenta LaMP-Cap, un conjunto de datos para la generación personalizada de títulos de figuras con perfiles multimodales de figuras. Para cada figura objetivo, LaMP-Cap proporciona no solo las entradas necesarias, como las imágenes de la figura, sino también hasta otras tres figuras del mismo documento, cada una con su imagen, título y párrafos que mencionan la figura, como un perfil para caracterizar el contexto. Los experimentos con cuatro LLM muestran que el uso de información del perfil ayuda consistentemente a generar títulos más cercanos a los escritos originalmente por el autor. Los estudios de ablación revelan que las imágenes en el perfil son más útiles que los párrafos que mencionan la figura, destacando la ventaja de utilizar perfiles multimodales sobre los que solo incluyen texto.

English

Figure captions are crucial for helping readers understand and remember a figure's key message. Many models have been developed to generate these captions, helping authors compose better quality captions more easily. Yet, authors almost always need to revise generic AI-generated captions to match their writing style and the domain's style, highlighting the need for personalization. Despite language models' personalization (LaMP) advances, these technologies often focus on text-only settings and rarely address scenarios where both inputs and profiles are multimodal. This paper introduces LaMP-Cap, a dataset for personalized figure caption generation with multimodal figure profiles. For each target figure, LaMP-Cap provides not only the needed inputs, such as figure images, but also up to three other figures from the same document--each with its image, caption, and figure-mentioning paragraphs--as a profile to characterize the context. Experiments with four LLMs show that using profile information consistently helps generate captions closer to the original author-written ones. Ablation studies reveal that images in the profile are more helpful than figure-mentioning paragraphs, highlighting the advantage of using multimodal profiles over text-only ones.