LEOPARD: Языковая модель видения для задач с множеством изображений с текстовым контентом

Аннотация

Изображения с текстовым содержанием, где текст служит центральным визуальным элементом, направляющим общее понимание, широко распространены в прикладных областях, таких как слайды презентаций, отсканированные документы и снимки веб-страниц. Задачи, связанные с несколькими изображениями с текстовым содержанием, особенно сложны, поскольку требуют не только понимания содержания отдельных изображений, но и рассуждений о взаимосвязях и логических потоках между несколькими визуальными входами. Несмотря на важность таких сценариев, текущие мультимодальные модели языка большого масштаба (MLLM) испытывают трудности в решении таких задач из-за двух ключевых проблем: (1) недостаточного количества высококачественных наборов данных для настройки инструкций для сценариев с несколькими текстовыми изображениями и (2) сложности балансирования разрешения изображения с длиной последовательности визуальных признаков. Для решения этих проблем мы предлагаем \OurMethod, MLLM, специально разработанную для решения задач видео-языкового взаимодействия, включающих несколько изображений с текстовым содержанием. Во-первых, мы составили около одного миллиона высококачественных мультимодальных данных для настройки инструкций, адаптированных для сценариев с несколькими текстовыми изображениями. Во-вторых, мы разработали адаптивный модуль кодирования многократного изображения высокого разрешения для динамической оптимизации выделения длины визуальной последовательности на основе исходных соотношений сторон и разрешений входных изображений. Эксперименты на широком спектре бенчмарков демонстрируют превосходные возможности нашей модели в оценке сценариев с текстовым содержанием и несколько конкурентоспособную производительность в общих оценках домена.

English

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose \OurMethod, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model's superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.

LEOPARD: Языковая модель видения для задач с множеством изображений с текстовым контентом

LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks

Аннотация

Support