大規模なマルチモーダルモデルの長文理解のためのLoRA-文脈適応
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding
November 2, 2024
著者: Jian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun
cs.AI
要旨
大規模多モーダルモデル(LMMs)は、最近、テキスト豊かな画像理解において大きな進歩を遂げていますが、複雑で複数ページ、視覚的に豊かな文書にはまだ苦労しています。文書パーサーを使用した従来の方法は、検索増強生成においてパフォーマンスと効率の制限に苦しんでいますが、すべてのページを直接LMMsに提示すると、特に長文書では効率が損なわれます。本研究では、大規模多モーダルモデル(LMM)をサポートするための新しいフレームワークであるLoRA-Contextualizing Adaptation of Large multimodal models(LoCAL)を提案します。我々は、LMMsが効果的に多モーダルリトリーバーとして機能し、ユーザーの質問に回答するために関連ページを取得することができることを実証します。LoCALは、2つの特定のLMMアダプターで実装されています:証拠ページの検索用と質問回答用のものです。実証結果は、公開ベンチマークで最先端のパフォーマンスを示し、LoCALの効果を実証しています。
English
Large multimodal models (LMMs) have recently shown great progress in
text-rich image understanding, yet they still struggle with complex,
multi-page, visually-rich documents. Traditional methods using document parsers
for retrieval-augmented generation suffer from performance and efficiency
limitations, while directly presenting all pages to LMMs leads to
inefficiencies, especially with lengthy documents. In this work, we present a
novel framework named LoRA-Contextualizing Adaptation of Large multimodal
models (LoCAL), which broadens the capabilities of any LMM to support
long-document understanding. We demonstrate that LMMs can effectively serve as
multimodal retrievers, fetching relevant pages to answer user questions based
on these pages. LoCAL is implemented with two specific LMM adapters: one for
evidence page retrieval and another for question answering. Empirical results
show state-of-the-art performance on public benchmarks, demonstrating the
effectiveness of LoCAL.Summary
AI-Generated Summary