ChatPaper.aiChatPaper

LEOPARD : Un modèle de langage vision pour les tâches multi-images riches en texte

LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks

October 2, 2024
Auteurs: Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
cs.AI

Résumé

Les images riches en texte, où le texte sert d'élément visuel central guidant la compréhension globale, sont courantes dans les applications du monde réel, telles que les diapositives de présentation, les documents numérisés et les captures d'écran de pages web. Les tâches impliquant plusieurs images riches en texte sont particulièrement complexes, car elles nécessitent non seulement la compréhension du contenu des images individuelles, mais aussi le raisonnement sur les interrelations et les flux logiques à travers plusieurs entrées visuelles. Malgré l'importance de ces scénarios, les modèles de langage multimodaux à grande échelle (MLLMs) actuels peinent à gérer de telles tâches en raison de deux défis majeurs : (1) la rareté de jeux de données d'accord de haute qualité pour les scénarios multi-images riches en texte, et (2) la difficulté à équilibrer la résolution de l'image avec la longueur de la séquence de caractéristiques visuelles. Pour relever ces défis, nous proposons \NotreMéthode, un MLLM conçu spécifiquement pour traiter les tâches vision-langage impliquant plusieurs images riches en texte. Tout d'abord, nous avons rassemblé environ un million de données d'accord multimodales de haute qualité, adaptées aux scénarios multi-images riches en texte. Ensuite, nous avons développé un module d'encodage multi-images haute résolution adaptatif pour optimiser dynamiquement l'allocation de la longueur de la séquence visuelle en fonction des ratios et des résolutions originaux des images d'entrée. Des expériences menées sur un large éventail de référentiels démontrent les capacités supérieures de notre modèle dans les évaluations multi-images riches en texte et ses performances compétitives dans les évaluations de domaine général.
English
Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose \OurMethod, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model's superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.

Summary

AI-Generated Summary

PDF265November 16, 2024