LEOPARD: Um Modelo de Linguagem Visual para Tarefas Multifotográficas Ricas em Texto
LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks
October 2, 2024
Autores: Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
cs.AI
Resumo
Imagens ricas em texto, onde o texto serve como o elemento visual central orientando a compreensão geral, são prevalentes em aplicações do mundo real, como slides de apresentação, documentos digitalizados e capturas de tela de páginas da web. Tarefas envolvendo múltiplas imagens ricas em texto são especialmente desafiadoras, pois exigem não apenas a compreensão do conteúdo de imagens individuais, mas também o raciocínio sobre inter-relações e fluxos lógicos entre múltiplas entradas visuais. Apesar da importância desses cenários, os atuais modelos de linguagem multimodais de grande escala (MLLMs) enfrentam dificuldades para lidar com tarefas desse tipo devido a dois desafios principais: (1) a escassez de conjuntos de dados de ajuste de instruções de alta qualidade para cenários de múltiplas imagens ricas em texto e (2) a dificuldade em equilibrar a resolução da imagem com o comprimento da sequência de recursos visuais. Para enfrentar esses desafios, propomos \NossoMétodo, um MLLM projetado especificamente para lidar com tarefas de visão e linguagem envolvendo múltiplas imagens ricas em texto. Primeiramente, curamos cerca de um milhão de dados de ajuste de instruções multimodais de alta qualidade, adaptados para cenários de múltiplas imagens ricas em texto. Em segundo lugar, desenvolvemos um módulo de codificação de múltiplas imagens em alta resolução adaptativa para otimizar dinamicamente a alocação do comprimento da sequência visual com base nas proporções originais e resoluções das imagens de entrada. Experimentos em uma ampla gama de benchmarks demonstram as capacidades superiores do nosso modelo em avaliações de múltiplas imagens ricas em texto e o desempenho competitivo em avaliações de domínio geral.
English
Text-rich images, where text serves as the central visual element guiding the
overall understanding, are prevalent in real-world applications, such as
presentation slides, scanned documents, and webpage snapshots. Tasks involving
multiple text-rich images are especially challenging, as they require not only
understanding the content of individual images but reasoning about
inter-relationships and logical flows across multiple visual inputs. Despite
the importance of these scenarios, current multimodal large language models
(MLLMs) struggle to handle such tasks due to two key challenges: (1) the
scarcity of high-quality instruction tuning datasets for text-rich multi-image
scenarios, and (2) the difficulty in balancing image resolution with visual
feature sequence length. To address these challenges, we propose \OurMethod, a
MLLM designed specifically for handling vision-language tasks involving
multiple text-rich images. First, we curated about one million high-quality
multimodal instruction-tuning data, tailored to text-rich, multi-image
scenarios. Second, we developed an adaptive high-resolution multi-image
encoding module to dynamically optimize the allocation of visual sequence
length based on the original aspect ratios and resolutions of the input images.
Experiments across a wide range of benchmarks demonstrate our model's superior
capabilities in text-rich, multi-image evaluations and competitive performance
in general domain evaluations.Summary
AI-Generated Summary