LEOPARD: Een Vision Language Model voor taken met tekstrijke multi-afbeeldingen.
LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks
October 2, 2024
Auteurs: Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
cs.AI
Samenvatting
Tekstrijke afbeeldingen, waarbij tekst fungeert als het centrale visuele element dat de algehele begrip stuurt, zijn veelvoorkomend in real-world toepassingen, zoals presentatieslides, gescande documenten en webpagina-screenshots. Taken met meerdere tekstrijke afbeeldingen zijn vooral uitdagend, omdat ze niet alleen begrip van de inhoud van individuele afbeeldingen vereisen, maar ook redeneren over interrelaties en logische stromen over meerdere visuele invoeren. Ondanks het belang van deze scenario's, hebben huidige multimodale grote taalmodellen (MLLM's) moeite met het afhandelen van dergelijke taken vanwege twee belangrijke uitdagingen: (1) de schaarste aan hoogwaardige instructie-afstemmingsdatasets voor tekstrijke multi-afbeeldingsscenario's, en (2) de moeilijkheid om beeldresolutie in balans te brengen met visuele kenmerksequentielengte. Om deze uitdagingen aan te pakken, stellen we \OnzeMethode voor, een MLLM die specifiek is ontworpen voor het afhandelen van visie-taal taken met meerdere tekstrijke afbeeldingen. Ten eerste hebben we ongeveer één miljoen hoogwaardige multimodale instructie-afstemmingsgegevens samengesteld, afgestemd op tekstrijke, multi-afbeeldingsscenario's. Ten tweede hebben we een adaptieve module voor het coderen van meerdere afbeeldingen met hoge resolutie ontwikkeld om dynamisch de toewijzing van visuele sequentielengte te optimaliseren op basis van de originele beeldverhoudingen en resoluties van de invoerafbeeldingen. Experimenten over een breed scala van benchmarks tonen de superieure mogelijkheden van ons model in tekstrijke, multi-afbeeldingsevaluaties en de competitieve prestaties in algemene domeinevaluaties.
English
Text-rich images, where text serves as the central visual element guiding the
overall understanding, are prevalent in real-world applications, such as
presentation slides, scanned documents, and webpage snapshots. Tasks involving
multiple text-rich images are especially challenging, as they require not only
understanding the content of individual images but reasoning about
inter-relationships and logical flows across multiple visual inputs. Despite
the importance of these scenarios, current multimodal large language models
(MLLMs) struggle to handle such tasks due to two key challenges: (1) the
scarcity of high-quality instruction tuning datasets for text-rich multi-image
scenarios, and (2) the difficulty in balancing image resolution with visual
feature sequence length. To address these challenges, we propose \OurMethod, a
MLLM designed specifically for handling vision-language tasks involving
multiple text-rich images. First, we curated about one million high-quality
multimodal instruction-tuning data, tailored to text-rich, multi-image
scenarios. Second, we developed an adaptive high-resolution multi-image
encoding module to dynamically optimize the allocation of visual sequence
length based on the original aspect ratios and resolutions of the input images.
Experiments across a wide range of benchmarks demonstrate our model's superior
capabilities in text-rich, multi-image evaluations and competitive performance
in general domain evaluations.Summary
AI-Generated Summary