LoRA-Contextualizando la Adaptación de Modelos Multimodales Grandes para la Comprensión de Documentos Largos
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding
November 2, 2024
Autores: Jian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun
cs.AI
Resumen
Los modelos multimodales grandes (LMMs) han mostrado recientemente un gran progreso en la comprensión de imágenes ricas en texto, sin embargo, aún enfrentan dificultades con documentos complejos, multi-página y visualmente ricos. Los métodos tradicionales que utilizan analizadores de documentos para generación aumentada por recuperación sufren limitaciones de rendimiento y eficiencia, mientras que presentar directamente todas las páginas a los LMMs conlleva ineficiencias, especialmente con documentos extensos. En este trabajo, presentamos un marco novedoso llamado LoRA-Adaptación Contextual de Modelos Multimodales Grandes (LoCAL), que amplía las capacidades de cualquier LMM para apoyar la comprensión de documentos extensos. Demostramos que los LMMs pueden servir efectivamente como recuperadores multimodales, obteniendo páginas relevantes para responder preguntas de usuarios basadas en esas páginas. LoCAL se implementa con dos adaptadores específicos de LMM: uno para recuperación de páginas de evidencia y otro para respuesta a preguntas. Los resultados empíricos muestran un rendimiento de vanguardia en bancos de pruebas públicos, demostrando la efectividad de LoCAL.
English
Large multimodal models (LMMs) have recently shown great progress in
text-rich image understanding, yet they still struggle with complex,
multi-page, visually-rich documents. Traditional methods using document parsers
for retrieval-augmented generation suffer from performance and efficiency
limitations, while directly presenting all pages to LMMs leads to
inefficiencies, especially with lengthy documents. In this work, we present a
novel framework named LoRA-Contextualizing Adaptation of Large multimodal
models (LoCAL), which broadens the capabilities of any LMM to support
long-document understanding. We demonstrate that LMMs can effectively serve as
multimodal retrievers, fetching relevant pages to answer user questions based
on these pages. LoCAL is implemented with two specific LMM adapters: one for
evidence page retrieval and another for question answering. Empirical results
show state-of-the-art performance on public benchmarks, demonstrating the
effectiveness of LoCAL.Summary
AI-Generated Summary