LEOPARD: Ein Vision-Sprachmodell für textreiche Multi-Bild-Aufgaben

papers.abstract

Bildreiche Bilder, bei denen Text als zentrales visuelles Element dient, um das Gesamtverständnis zu leiten, sind in realen Anwendungen weit verbreitet, wie z.B. Präsentationsfolien, gescannte Dokumente und Webseiten-Schnappschüsse. Aufgaben, die mehrere textreiche Bilder beinhalten, sind besonders anspruchsvoll, da sie nicht nur das Verständnis des Inhalts einzelner Bilder erfordern, sondern auch das Nachdenken über die Beziehungen und logischen Abläufe über mehrere visuelle Eingaben hinweg. Trotz der Bedeutung dieser Szenarien haben aktuelle multimodale große Sprachmodelle (MLLMs) Schwierigkeiten, solche Aufgaben zu bewältigen, aufgrund von zwei Hauptproblemen: (1) dem Mangel an hochwertigen Anleitungstuning-Datensätzen für textreiche Multi-Bild-Szenarien und (2) der Schwierigkeit, die Bildauflösung mit der Länge der visuellen Merkmalssequenz in Einklang zu bringen. Um diesen Herausforderungen zu begegnen, schlagen wir \OurMethod vor, ein MLLM, das speziell für die Bewältigung von Vision-Language-Aufgaben mit mehreren textreichen Bildern entwickelt wurde. Zunächst haben wir etwa eine Million hochwertige multimodale Anleitungstuning-Daten kuratiert, die auf textreiche, multi-Bild-Szenarien zugeschnitten sind. Zweitens haben wir ein adaptives Multi-Bild-Codierungsmodul mit hoher Auflösung entwickelt, um die Zuweisung der visuellen Sequenzlänge dynamisch zu optimieren, basierend auf den Original-Seitenverhältnissen und Auflösungen der Eingabebilder. Experimente über eine Vielzahl von Benchmarks zeigen die überlegenen Fähigkeiten unseres Modells bei textreichen, multi-Bild-Evaluationen und die wettbewerbsfähige Leistung bei allgemeinen Domänen-Evaluationen.

English

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose \OurMethod, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model's superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.

LEOPARD: Ein Vision-Sprachmodell für textreiche Multi-Bild-Aufgaben

LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks

papers.abstract

Support