LEOPARD: Языковая модель видения для задач с множеством изображений с текстовым контентом
LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks
October 2, 2024
Авторы: Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
cs.AI
Аннотация
Изображения с текстовым содержанием, где текст служит центральным визуальным элементом, направляющим общее понимание, широко распространены в прикладных областях, таких как слайды презентаций, отсканированные документы и снимки веб-страниц. Задачи, связанные с несколькими изображениями с текстовым содержанием, особенно сложны, поскольку требуют не только понимания содержания отдельных изображений, но и рассуждений о взаимосвязях и логических потоках между несколькими визуальными входами. Несмотря на важность таких сценариев, текущие мультимодальные модели языка большого масштаба (MLLM) испытывают трудности в решении таких задач из-за двух ключевых проблем: (1) недостаточного количества высококачественных наборов данных для настройки инструкций для сценариев с несколькими текстовыми изображениями и (2) сложности балансирования разрешения изображения с длиной последовательности визуальных признаков. Для решения этих проблем мы предлагаем \OurMethod, MLLM, специально разработанную для решения задач видео-языкового взаимодействия, включающих несколько изображений с текстовым содержанием. Во-первых, мы составили около одного миллиона высококачественных мультимодальных данных для настройки инструкций, адаптированных для сценариев с несколькими текстовыми изображениями. Во-вторых, мы разработали адаптивный модуль кодирования многократного изображения высокого разрешения для динамической оптимизации выделения длины визуальной последовательности на основе исходных соотношений сторон и разрешений входных изображений. Эксперименты на широком спектре бенчмарков демонстрируют превосходные возможности нашей модели в оценке сценариев с текстовым содержанием и несколько конкурентоспособную производительность в общих оценках домена.
English
Text-rich images, where text serves as the central visual element guiding the
overall understanding, are prevalent in real-world applications, such as
presentation slides, scanned documents, and webpage snapshots. Tasks involving
multiple text-rich images are especially challenging, as they require not only
understanding the content of individual images but reasoning about
inter-relationships and logical flows across multiple visual inputs. Despite
the importance of these scenarios, current multimodal large language models
(MLLMs) struggle to handle such tasks due to two key challenges: (1) the
scarcity of high-quality instruction tuning datasets for text-rich multi-image
scenarios, and (2) the difficulty in balancing image resolution with visual
feature sequence length. To address these challenges, we propose \OurMethod, a
MLLM designed specifically for handling vision-language tasks involving
multiple text-rich images. First, we curated about one million high-quality
multimodal instruction-tuning data, tailored to text-rich, multi-image
scenarios. Second, we developed an adaptive high-resolution multi-image
encoding module to dynamically optimize the allocation of visual sequence
length based on the original aspect ratios and resolutions of the input images.
Experiments across a wide range of benchmarks demonstrate our model's superior
capabilities in text-rich, multi-image evaluations and competitive performance
in general domain evaluations.