LEOPARD: Ein Vision-Sprachmodell für textreiche Multi-Bild-Aufgaben
LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks
October 2, 2024
Autoren: Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
cs.AI
Zusammenfassung
Bildreiche Bilder, bei denen Text als zentrales visuelles Element dient, um das Gesamtverständnis zu leiten, sind in realen Anwendungen weit verbreitet, wie z.B. Präsentationsfolien, gescannte Dokumente und Webseiten-Schnappschüsse. Aufgaben, die mehrere textreiche Bilder beinhalten, sind besonders anspruchsvoll, da sie nicht nur das Verständnis des Inhalts einzelner Bilder erfordern, sondern auch das Nachdenken über die Beziehungen und logischen Abläufe über mehrere visuelle Eingaben hinweg. Trotz der Bedeutung dieser Szenarien haben aktuelle multimodale große Sprachmodelle (MLLMs) Schwierigkeiten, solche Aufgaben zu bewältigen, aufgrund von zwei Hauptproblemen: (1) dem Mangel an hochwertigen Anleitungstuning-Datensätzen für textreiche Multi-Bild-Szenarien und (2) der Schwierigkeit, die Bildauflösung mit der Länge der visuellen Merkmalssequenz in Einklang zu bringen. Um diesen Herausforderungen zu begegnen, schlagen wir \OurMethod vor, ein MLLM, das speziell für die Bewältigung von Vision-Language-Aufgaben mit mehreren textreichen Bildern entwickelt wurde. Zunächst haben wir etwa eine Million hochwertige multimodale Anleitungstuning-Daten kuratiert, die auf textreiche, multi-Bild-Szenarien zugeschnitten sind. Zweitens haben wir ein adaptives Multi-Bild-Codierungsmodul mit hoher Auflösung entwickelt, um die Zuweisung der visuellen Sequenzlänge dynamisch zu optimieren, basierend auf den Original-Seitenverhältnissen und Auflösungen der Eingabebilder. Experimente über eine Vielzahl von Benchmarks zeigen die überlegenen Fähigkeiten unseres Modells bei textreichen, multi-Bild-Evaluationen und die wettbewerbsfähige Leistung bei allgemeinen Domänen-Evaluationen.
English
Text-rich images, where text serves as the central visual element guiding the
overall understanding, are prevalent in real-world applications, such as
presentation slides, scanned documents, and webpage snapshots. Tasks involving
multiple text-rich images are especially challenging, as they require not only
understanding the content of individual images but reasoning about
inter-relationships and logical flows across multiple visual inputs. Despite
the importance of these scenarios, current multimodal large language models
(MLLMs) struggle to handle such tasks due to two key challenges: (1) the
scarcity of high-quality instruction tuning datasets for text-rich multi-image
scenarios, and (2) the difficulty in balancing image resolution with visual
feature sequence length. To address these challenges, we propose \OurMethod, a
MLLM designed specifically for handling vision-language tasks involving
multiple text-rich images. First, we curated about one million high-quality
multimodal instruction-tuning data, tailored to text-rich, multi-image
scenarios. Second, we developed an adaptive high-resolution multi-image
encoding module to dynamically optimize the allocation of visual sequence
length based on the original aspect ratios and resolutions of the input images.
Experiments across a wide range of benchmarks demonstrate our model's superior
capabilities in text-rich, multi-image evaluations and competitive performance
in general domain evaluations.Summary
AI-Generated Summary