LEOPARD: Un modelo de lenguaje visual para tareas multiimagen ricas en texto
LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks
October 2, 2024
Autores: Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
cs.AI
Resumen
Las imágenes ricas en texto, donde el texto sirve como el elemento visual central que guía la comprensión general, son comunes en aplicaciones del mundo real, como diapositivas de presentaciones, documentos escaneados y capturas de páginas web. Las tareas que involucran múltiples imágenes ricas en texto son especialmente desafiantes, ya que requieren no solo comprender el contenido de cada imagen individual, sino también razonar sobre las interrelaciones y flujos lógicos entre múltiples entradas visuales. A pesar de la importancia de estos escenarios, los modelos de lenguaje multimodales grandes actuales (MLLMs) tienen dificultades para manejar tales tareas debido a dos desafíos clave: (1) la escasez de conjuntos de datos de ajuste de instrucciones de alta calidad para escenarios de múltiples imágenes ricas en texto, y (2) la dificultad para equilibrar la resolución de la imagen con la longitud de la secuencia de características visuales. Para abordar estos desafíos, proponemos \OurMethod, un MLLM diseñado específicamente para manejar tareas de visión y lenguaje que involucran múltiples imágenes ricas en texto. En primer lugar, recopilamos alrededor de un millón de datos de ajuste de instrucciones multimodales de alta calidad, adaptados a escenarios de múltiples imágenes ricas en texto. En segundo lugar, desarrollamos un módulo de codificación de múltiples imágenes de alta resolución adaptativo para optimizar dinámicamente la asignación de la longitud de la secuencia visual en función de las relaciones de aspecto originales y las resoluciones de las imágenes de entrada. Experimentos en una amplia gama de pruebas demuestran las capacidades superiores de nuestro modelo en evaluaciones de múltiples imágenes ricas en texto y un rendimiento competitivo en evaluaciones de dominio general.
English
Text-rich images, where text serves as the central visual element guiding the
overall understanding, are prevalent in real-world applications, such as
presentation slides, scanned documents, and webpage snapshots. Tasks involving
multiple text-rich images are especially challenging, as they require not only
understanding the content of individual images but reasoning about
inter-relationships and logical flows across multiple visual inputs. Despite
the importance of these scenarios, current multimodal large language models
(MLLMs) struggle to handle such tasks due to two key challenges: (1) the
scarcity of high-quality instruction tuning datasets for text-rich multi-image
scenarios, and (2) the difficulty in balancing image resolution with visual
feature sequence length. To address these challenges, we propose \OurMethod, a
MLLM designed specifically for handling vision-language tasks involving
multiple text-rich images. First, we curated about one million high-quality
multimodal instruction-tuning data, tailored to text-rich, multi-image
scenarios. Second, we developed an adaptive high-resolution multi-image
encoding module to dynamically optimize the allocation of visual sequence
length based on the original aspect ratios and resolutions of the input images.
Experiments across a wide range of benchmarks demonstrate our model's superior
capabilities in text-rich, multi-image evaluations and competitive performance
in general domain evaluations.